Wielojęzyczny system analizy podobieństwa tekstów

Multilingual texts similarity analysis

Użyte narzędzia Used tools

Konwerter plików do tekstu Apache Tika

Apache Tika - files to text converter

Tager UDPipe

UDPipe Tagger

Instrukcja Instructions

1

Należy wybrać pliki, które chcesz przeanalizować - paczka ZIP, adres URL, czy pliki z repozytorium dSpace / nextCloud. Korpusem jest dowolna paczka plików z różnymi tekstami

Choose corpus of texts you want to analyse - it may be a ZIP package, URL address or files from dSpace / nextCloud repository

2

Następnie wybrać przycisk "Analizuj" i poczekać na załadowanie wyniku. Im większy rozmiar załadowanych plików tym dłuższy czas ładowania (będzie wyświetlony pasek postępu)

Next press "Analyse" button and wait for the results to be displayed. The bigger files for rendering the longer waiting time for loading results (progress bar will be displayed)

3

Po wykonaniu analizy wyświetli się szereg opcji takich jak: "interaktywne drzewo", czy "mapa ciepła". Po wybraniu jednej z opcji wyświetli się nowa strona wraz ze szczegółowym wynikiem

Upon completion a number of options will be displayed such as: "interactive tree" or "heatmap". After choosing one of the options new page with detailed result will be displayed

Opcje podstawowe Basic options

Wybierz język tekstów w korpusie Choose language of texts in corpus
Liczba grup dla automatycznego podziału korpusu. Liczba nie może być niższa niż 2 i wyższa niż rozmiar korpusu(liczba plików w korpusie) / 2 Number of groups for automatic splitting of corpus. Can't be lower than 2 and higher than corpus size(in files) / 2
Opcja umożliwia automatyczny podział dokumentów na mniejsze części o zadanym rozmiarze (podanym w bajtach). Granice wyrazów są zachowywane. It allows to divide texts into smaller chunks with predefined size (in bytes). The boundary of words is preserved.

Ustawienia wstępne Initial settings

Opcje zaawansowane Advanced options

Wybór cech Choice of features

Elementy Elements

Interpunkcja Punctuation

Części mowy Word classes
W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Pozostałe klasy gramatyczne Other grammatical classes
W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Sekwencje klas gramatycznych Sequences of grammatical classes
W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Pomijanie cech rzadkich

Filtering method

Ważenie macierzy cech

Feature matrix weighting

Opcje podstawowe Basic options

Usuwanie lematów występujących rzadziej niż w zadanej liczbie dokumentów Keep tokens which are contained in at least a given number of documents
Usuwanie lamatów występujących w większej częsci korpusu niż zadana liczba (ułamek, część korpusu) Keep lemmas which are contained in no more than a given fraction of documents (fraction of total corpus size, not an absolute number)

 Części mowy:  Word classes:

Opcje podstawowe Basic options

Usuwanie lematów występujących rzadziej niż w zadanej liczbie dokumentów Keep tokens which are contained in at least n documents.
Usuwanie lamatów występujących w większej częsci korpusu niż zadana liczba (ułamek, część korpusu) Keep lemmas which are contained in no more than a given fraction of documents (fraction of total corpus size, not an absolute number)

 Części mowy:  Word classes:

Opcje wyznaczania podobieństwa Similarity measuring

Wyznaczanie podobieństwa

Determining probability

Adres pliku (zip)

URL of zip file

Przykładowe korpusy

Example corpora

Wynik

Result