Wielojęzyczny system analizy podobieństwa tekstów

Multilingual texts similarity analysis

Użyte narzędzia Used tools

Konwerter plików do tekstu Apache Tika

Apache Tika - files to text converter

Tager UDPipe

UDPipe Tagger

Instrukcja Instructions

1

Należy wybrać pliki, które chcesz przeanalizować - paczka ZIP, adres URL, czy pliki z repozytorium dSpace / nextCloud. Korpusem jest dowolna paczka plików z różnymi tekstami

Choose corpus of texts you want to analyse - it may be a ZIP package, URL address or files from dSpace / nextCloud repository

2

Następnie wybrać przycisk "Analizuj" i poczekać na załadowanie wyniku. Im większy rozmiar załadowanych plików tym dłuższy czas ładowania (będzie wyświetlony pasek postępu)

Next press "Analyse" button and wait for the results to be displayed. The bigger files for rendering the longer waiting time for loading results (progress bar will be displayed)

3

Po wykonaniu analizy wyświetli się szereg opcji takich jak: "interaktywne drzewo", czy "mapa ciepła". Po wybraniu jednej z opcji wyświetli się nowa strona wraz ze szczegółowym wynikiem

Upon completion a number of options will be displayed such as: "interactive tree" or "heatmap". After choosing one of the options new page with detailed result will be displayed

Opcje podstawowe Basic options

Wybierz język tekstów w korpusie Choose language of texts in corpus
Liczba grup dla automatycznego podziału korpusu. Liczba nie może być niższa niż 2 i wyższa niż rozmiar korpusu(liczba plików w korpusie) / 2 Number of groups for automatic splitting of corpus. Can't be lower than 2 and higher than corpus size(in files) / 2
Opcja umożliwia automatyczny podział dokumentów na mniejsze części o zadanym rozmiarze (podanym w bajtach). Granice wyrazów są zachowywane. It allows to divide texts into smaller chunks with predefined size (in bytes). The boundary of words is preserved.

Ustawienia wstępne Initial settings

Opcje zaawansowane Advanced options

Wybór cech Choice of features

Elementy Elements
Zaznaczone elementy/cechy zostaną wzięte pod uwagę podczas porównywania dokumentów. Selected elements will be taken into account in the process of comparing documents.

Opcja umożliwia załadowanie własnej stoplisty. Lista form bazowych rozdzielona enterami, która zotanie wyłączona z wyników It allows to load a custom stoplist. List of bases, separated by enter, that will be excluded from results

Interpunkcja Punctuation
Znaki interpunkcyjne domyślnie są pomijane przy porównaniu dokumentów. Możesz wybrać, które mają nie być pomijane. By default, punctuation marks are omitted in process of comparing documents. You may choose, which of them shouldn't be omitted.

Części mowy Word classes
Domyślnie wszystkie części mowy brane są pod uwagę podczas procesu pomiaru podobieństwa. Możesz jednak wybrać jedną lub wiele gramatycznych klas, aby nie były poddane analizie. By default all world classes are taken into account during similarity measure process. You may, however, choose only one or few main grammatical classes to not to be analysed.

Pozostałe klasy gramatyczne Other grammatical classes
Domyślnie wszystkie części mowy brane są pod uwagę podczas procesu pomiaru podobieństwa. Możesz jednak wybrać jedną lub wiele gramatycznych klas do analizy - może to być istotne dla atrybucji autorstwa. By default all word classes are taken into account during similarity measure process. You may, however, choose only one or few additional grammatical classes to analyse – this may be distinctive for stylometric authorship attribution.

Sekwencje klas gramatycznych Sequences of grammatical classes
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Praesent pulvinar nec est sit amet elementum. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Praesent pulvinar nec est sit amet elementum.

Opcje wyznaczania podobieństwa Similarity measuring

Pomijanie cech rzadkich Filtering method

Wyznaczanie podobieństwa Likelihood calculation

Adres pliku (zip)

URL of zip file

Przykładowe korpusy

Example corpora


Źródło plików- Twoje prywatne pliki przechowywane w serwisie CLARIN-PL Nextcloud. Files source- your private files stored in CLARIN-PL Nextcloud service.

Wynik

Result