System eksploracji tekstów literackich

Literary Exploration Machine

Użyte narzędzia Used tools

Konwerter plików do tekstu Apache Tika

Apache Tika- files to text converter

Analizator morfologiczny Morfeusz 2 ze słownikiem SGJP

Morfeusz 2 with SGJP dictionary (for morphological analysis)

Tager WCRFT2, WSD

WCRFT2 tagger, WSD

Instrukcja Instructions

1

Należy przeciągnąć korpus w formacie ZIP zawierający pliki w formatach: txt, doc,docx, pptx, xlsx, odt, pdf, html, rtf - zostaną one automatycznie przekonwertowane do tekstu

Drag and drop ZIP package with files in specific formats: txt, doc,docx, pptx, xlsx, odt, pdf, html, rtf - they will be automatically formatted to text format

2

Następnie wybrać przycisk "Analizuj" i poczekać na załadowanie wyniku. Im większy rozmiar załadowanych plików tym dłuższy czas ładowania (będzie wyświetlony pasek postępu)

Next press "Analyse" button and wait for the results to be displayed. The bigger files for rendering, the longer waiting time for loading results (progress bar will be displayed)

3

Po wykonaniu analizy wyświetli link do załadowania wyników lub opcje do graicznej prezentacji

After completion of choosen task the Result will appear below - download the result and proceed as you need.

Opcje

Options

Opcja umożliwia załadowanie własnej stoplisty. Lista form bazowych rozdzielona enterami, która zotanie wyłączona z wyników It allows to load a custom stoplist. List of bases, separated by enter, that will be excluded from results
Opcja umożliwia automatyczny podział dokumentów na mniejsze części (c.a. 20 000 bajtów) It allows to divide texts into smaller chunks (c.a. 20,000 bytes)

Adres pliku (zip)

URL of zip file

Przykładowe korpusy

Example corpora

Korpus dSpace

dSpace corpus

Wybrano: "Żeromski"

Źródło plików - publiczne korpusy serwisu CLARIN-PL dSpace

Files source- public corpora of CLARIN-PL dSpace service

Wczytywanie danych...Loading data...

Źródło plików- Twoje prywatne pliki przechowywane w serwisie CLARIN-PL Nextcloud. Files source- your private files stored in CLARIN-PL Nextcloud service.