System analizy podobieństwa tekstów

Texts similarity analysis

Użyte narzędzia Used tools

Konwerter plików do tekstu Apache Tika

Converter files to text Apache Tika

Tager WCRFT

Analizator morfologiczny Morfeusz

Morphological analyser Morfeusz

Modelowanie tematyczne, wektory dystrybucyjne Gensim

Topic modelling, doc2vec Gensim

Modelowanie tematyczne Mallet

Topic modelling Mallet

Instrukcja Instructions

1

Należy wybrać pliki, które chcesz przeanalizować - paczka ZIP, adres URL, czy pliki z repozytorium dSpace / nextCloud. Korpusem jest dowolna paczka plików z różnymi tekstami

Choose files you want to analyse - ZIP package, URL address, or files from dSpace / nextCloud repository. Corpus is a package of files with different texts

2

Następnie wybrać przycisk "Analizuj" i poczekać na załadowanie wyniku. Im większy rozmiar załadowanych plików tym dłuższy czas ładowania (będzie wyświetlony pasek postępu)

Afterwards choose "Analyse" button and wait for algorithm to render result. The heavier the rendered files, the more loading time (progress bar will be displayed)

3

Po wykonaniu analizy wyświetli się szereg opcji takich jak: "interaktywne drzewo", czy "mapa ciepła". Po wybraniu jednej z opcji wyświetli się nowa strona wraz ze szczegółowym wynikiem

Upon completion a number of options will be displayed such as: "interactive tree" or "heatmap". After choosing one of the options new page with detailed result will be displayed

Opcje podstawowe Basic options

Opcja umożliwia automatyczny podział dokumentów na mniejsze części o zadanym rozmiarze (podanym w bajtach). Granice wyrazów są zachowywane. It allows to divide texts into smaller chunks with predefined size (in bytes). The boundary of words is preserved.

Ustawienia wstępne Initial settings

Opcje zaawansowane Advanced options

Wybór cech Choice of features

Elementy Elements

Interpunkcja Punctuation

Części mowy Word classes
W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Pozostałe klasy gramatyczne Other grammatical classes
W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Sekwencje klas gramatycznych Sequences of grammatical classes
W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Pomijanie cech rzadkich

Filtering method

Ważenie macierzy cech

Feature matrix weighting

Opcje podstawowe Basic options

Usuwanie lematów występujących rzadziej niż w zadanej liczbie dokumentów Keep tokens which are contained in at least a given number of documents
Usuwanie lamatów występujących w większej częsci korpusu niż zadana liczba (ułamek, część korpusu) Keep lemmas which are contained in no more than a given fraction of documents (fraction of total corpus size, not an absolute number)

 Części mowy:  Word classes:

Opcje podstawowe Basic options

Usuwanie lematów występujących rzadziej niż w zadanej liczbie dokumentów Keep tokens which are contained in at least n documents.
Usuwanie lamatów występujących w większej częsci korpusu niż zadana liczba (ułamek, część korpusu) Keep lemmas which are contained in no more than a given fraction of documents (fraction of total corpus size, not an absolute number)

 Części mowy:  Word classes:

 Użycie wyrażeń wielowyrazowych:  Multi-word expression detection:

 Części mowy:  Word classes:

Opcje wyznaczania podobieństwa Similarity calculation

Wyznaczanie podobieństwa

Determining probability

Adres pliku (zip)

URL of zip file

Przykładowe korpusy

Example corpora

Korpus dSpace

dSpace corpus

Wybrano: "Żeromski"

Źródło plików - publiczne korpusy serwisu CLARIN-PL dSpace

Files source- public corpora of CLARIN-PL dSpace service

Wczytywanie danych...Loading data...

Źródło plików- Twoje prywatne pliki przechowywane w serwisie CLARIN-PL Nextcloud. Files source- your private files stored in CLARIN-PL Nextcloud service.

Wynik

Result