Strona główna Main page RepozytoriumRepository Dla partnerówPartners Kontakt Contact English Polski

Grupowanie

Clustering

Interfejs webowy do wyznaczania podobieństwa i grupowania tekstów w języku polskim. Wykorzystane narzędzia:
Welcome to web interface similarity and clustering of texts in Polish. The tools used include:
  1. Open "Input data" section and choose data from local directory (from 3 to 30 files) or from dSpace repository. The following formats are accepted: txt, rtf, doc, docx, odt, xlslx, pdf. Files from the repository have undergone a preliminary processing, which speeds up the application; also, there is no limitations as to their size or number.
  2. Choose features you are looking for in "Choice of features".
  3. Choose clustering parameters in "Clustering options".
  4. Go to „Additional options” to initiate another clustering. Only clustering parameters may be modified within this option, which shortens time needed for analysis. Computation may take long (especially in case of large files), so it is useful to provide e-mail address for notification of completion.
  5. Click „Analyze” button.
  6. Upon completion data will be displayed below (along with e-mail notification, if requested).
  1. W sekcji "Dane wejściowe" można pobrać dane z dysku lokalnego (co najmniej trzy, nie więcej niż 30) lub z repozytorium dSpace.
    Akceptowane formaty dokumentów: txt, rtf, doc, docx, odt, xlslx, pdf. Pliki z repozytorium są wstępnie przetworzone co przyspiesza działanie aplikacji. Ponadto nie ma ograniczeń dla liczby i rozmiaru plików.
  2. Wybrać cechy wyznaczane z tekstu (sekcja "Wybór cech")
  3. Wybrać parametry grupowania (sekcja "Opcje grupowania")
  4. W sekcji "Opcje dodatkowe" istnieje możliwość ponownego grupowania dla wyznaczonych cech. Po wybraniu tej opcji można zmodyfikować tylko parametry grupowania. Pozwala to skrócić czas ponownej analizy.
    Czas przetwarzania (szczególnie dla dużych plików) może być długi, więc warto wpisać adres e-mailowy do powiadomienia
  5. Wcisnąć przycisk analizuj
  6. Po wykonaniu analizy wyświetli się dendogram (i ewentualnie wysłany zostanie e-mail)
 
 
 

 Liczba wystąpień w dokumencie:Number of occurrences in a document:

 Elementy:Elements:

 Interpunkcja:Punctuation:

(lista) (list)

 Części mowy:  Word classes:

 Klasy gramatyczne:  Grammatical classes:

 

 Sekwencje klas gramatycznych:  Sequences of grammatical classes: