System analizy podobieństwa tekstów

Texts similarity analysis

Użyte narzędzia Used tools

Konwerter plików do tekstu Apache Tika

Converter files to text Apache Tika

Tager WCRFT

Analizator morfologiczny Morfeusz

Morphological analyser Morfeusz

SuperMatrix

Modelowanie tematyczne, wektory dystrybucyjne Gensim

Topic modelling, doc2vec Gensim

Modelowanie tematyczne Mallet

Topic modelling Mallet

Instrukcja Instructions

Należy wybrać pliki, które chcesz przeanalizować - paczka ZIP, adres URL, czy pliki z repozytorium dSpace / nextCloud. Korpusem jest dowolna paczka plików z różnymi tekstami

Choose files you want to analyse - ZIP package, URL address, or files from dSpace / nextCloud repository. Corpus is a package of files with different texts

Następnie wybrać przycisk "Analizuj" i poczekać na załadowanie wyniku. Im większy rozmiar załadowanych plików tym dłuższy czas ładowania (będzie wyświetlony pasek postępu)

Afterwards choose "Analyse" button and wait for algorithm to render result. The heavier the rendered files, the more loading time (progress bar will be displayed)

Po wykonaniu analizy wyświetli się szereg opcji takich jak: "interaktywne drzewo", czy "mapa ciepła". Po wybraniu jednej z opcji wyświetli się nowa strona wraz ze szczegółowym wynikiem

Upon completion a number of options will be displayed such as: "interactive tree" or "heatmap". After choosing one of the options new page with detailed result will be displayed

Opcje podstawowe Basic options

Liczba grup Number of groups

Liczba grup dla automatycznego podziału korpusu. Liczba nie może być niższa niż 2 i wyższa niż rozmiar korpusu(liczba plików w korpusie) / 2 Number of groups for automatic splitting of corpus. Can't be lower than 2 and higher than corpus size(in files) / 2

Podział plików wejściowych Splitting of input files

Opcja umożliwia automatyczny podział dokumentów na mniejsze części o zadanym rozmiarze (podanym w bajtach). Granice wyrazów są zachowywane. It allows to divide texts into smaller chunks with predefined size (in bytes). The boundary of words is preserved.

Ustawienia wstępne Initial settings

Metody analizy Method of analysis

Ponowne wykorzystanie cech Reusage of generated features

Źródło wektora cech Feature vector origin

Opcje zaawansowane Advanced options

Wybór cech Choice of features

Opcje wyznaczania podobieństwa Similarity calculation

Wyznaczanie podobieństwa

Determining probability

Metoda redukcji wymiaru Dimension reduction method

Miara podobieństwa Similarity/distance measue

Dane wejściowe Input data

PRZEŚLIJ/WGRAJ PLIK ZIP UPLOAD ZIP FILE
WGRAJ PLIK Z ADRESU URL UPLOAD FILE FROM URL ADDRESS

System analizy podobieństwa tekstów

Texts similarity analysis

Użyte narzędzia Used tools

Konwerter plików do tekstu Apache Tika

Converter files to text Apache Tika

Tager WCRFT

Analizator morfologiczny Morfeusz

Morphological analyser Morfeusz

SuperMatrix

Modelowanie tematyczne, wektory dystrybucyjne Gensim

Topic modelling, doc2vec Gensim

Modelowanie tematyczne Mallet

Topic modelling Mallet

Instrukcja Instructions

Opcje podstawowe Basic options

Ustawienia wstępne Initial settings

Opcje zaawansowane Advanced options

Wybór cech Choice of features

Elementy Elements

Interpunkcja Punctuation

Części mowy Word classes
W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Pozostałe klasy gramatyczne Other grammatical classes
W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Sekwencje klas gramatycznych Sequences of grammatical classes
W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Pomijanie cech rzadkich

Filtering method

Ważenie macierzy cech

Feature matrix weighting

Opcje podstawowe Basic options

Części mowy: Word classes:

Opcje podstawowe Basic options

Części mowy: Word classes:

Użycie wyrażeń wielowyrazowych: Multi-word expression detection:

Części mowy: Word classes:

Opcje wyznaczania podobieństwa Similarity calculation

Wyznaczanie podobieństwa

Determining probability

Dane wejściowe Input data

Wynik

Result

System analizy podobieństwa tekstów

Texts similarity analysis

Użyte narzędzia Used tools

Konwerter plików do tekstu Apache Tika

Converter files to text Apache Tika

Tager WCRFT

Analizator morfologiczny Morfeusz

Morphological analyser Morfeusz

SuperMatrix

Modelowanie tematyczne, wektory dystrybucyjne Gensim

Topic modelling, doc2vec Gensim

Modelowanie tematyczne Mallet

Topic modelling Mallet

Instrukcja Instructions

Opcje podstawowe Basic options

Ustawienia wstępne Initial settings

Opcje zaawansowane Advanced options

Wybór cech Choice of features

Elementy Elements

Interpunkcja Punctuation

Części mowy Word classes W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Pozostałe klasy gramatyczne Other grammatical classes W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Sekwencje klas gramatycznych Sequences of grammatical classes W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Pomijanie cech rzadkich

Filtering method

Ważenie macierzy cech

Feature matrix weighting

Opcje podstawowe Basic options

Części mowy: Word classes:

Opcje podstawowe Basic options

Części mowy: Word classes:

Użycie wyrażeń wielowyrazowych: Multi-word expression detection:

Części mowy: Word classes:

Opcje wyznaczania podobieństwa Similarity calculation

Wyznaczanie podobieństwa

Determining probability

Dane wejściowe Input data

Wynik

Result

Części mowy Word classes
W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Pozostałe klasy gramatyczne Other grammatical classes
W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options

Sekwencje klas gramatycznych Sequences of grammatical classes
W celu zaznaczenia/odznaczenia wszystkich opcji kliknij w nagłówek Click on header to selected/unselect all options