System eksploracji tekstów literackich w języku angielskim

Literary Exploration Machine in English

Użyte narzędzia Used tools

biblioteka oprogramowania do zaawanowanego przetwarzania języka naturalnego spaCy

software library for advanced Natural Language Processing spaCy

Instrukcja Instructions

1

Należy przeciągnąć korpus w formacie ZIP zawierający pliki w formatach: txt, doc,docx, pptx, xlsx, odt, pdf, html, rtf - zostaną one automatycznie przekonwertowane do tekstu

Drag and drop ZIP package with files in specific formats: txt, doc,docx, pptx, xlsx, odt, pdf, html, rtf - they will be automatically formatted to text format

2

Następnie wybrać przycisk "Analizuj" i poczekać na załadowanie wyniku. Im większy rozmiar załadowanych plików tym dłuższy czas ładowania (będzie wyświetlony pasek postępu)

Next press "Analyse" button and wait for the results to be displayed. The bigger files for rendering, the longer waiting time for loading results (progress bar will be displayed)

3

Po wykonaniu analizy wyświetli się link do pliku. Oznaczenia tagów są wymienone w tabeli poniżej.

After the analysis, a link to the file will be displayed. Tag designations are listed in the table below

Oznaczenie

Wyjaśnienie

Description

PERSON

Osoby, również postacie fikcyjne

People, including fictional.

NORP

Narodowości, grupy polityczne, grupy religijne

Nationalities or religious or political groups.

FAC

Budynki, lotniska, autostrady, morsty, itp.

Buildings, airports, highways, bridges, etc.

ORG

Firmy, agencje, instytucje, itp.

Companies, agencies, institutions, etc.

GPE

Kraje, miasta, stany, itp.

Countries, cities, states.

LOC

Lokalizacje inne niż GPE, łańcuchy górskie, zbiorniki wodne.

Non-GPE locations, mountain ranges, bodies of water.

PRODUCT

Przedmioty, pojazdy, żywność itp. (Nie usługi.)

Objects, vehicles, foods, etc. (Not services.)

EVENT

Nazwane huragany, bitwy, wojny, wydarzenia sportowe itp.

Named hurricanes, battles, wars, sports events, etc.

WORK_OF_ART

Tytuły utworów muzycznych, literackich itp.

Titles of books, songs, etc.

LAW

Nazwane dokumenty prawne.

Named documents made into laws.

LANGUAGE

Dowolny nazwany język.

Any named language.

DATE

Bezwzględne lub względne daty lub okresy.

Absolute or relative dates or periods.

TIME

Czasy mniejsze niż jeden dzień.

Times smaller than a day.

PERCENT

Procenty, w tym znak „%”.

Percentage, including ”%“.

MONEY

Wartości pieniężne, w tym jednostka.

Monetary values, including unit.

QUANTITY

Pomiary, co do wagi lub odległości.

Measurements, as of weight or distance.

ORDINAL

"pierwszy", "drugi", itp.

“first”, “second”, etc.

CARDINAL

Cyfry, które nie należą do innego typu.

Numerals that do not fall under another type.

Opcje

Options

Opcja umożliwia automatyczny podział dokumentów na mniejsze części (c.a. 20 000 bajtów) It allows to divide texts into smaller chunks (c.a. 20,000 bytes)

Adres pliku (zip)

URL of zip file

Przykładowe korpusy

Example corpora

Korpus dSpace

dSpace corpus

Wybrano: "Żeromski"

Źródło plików - publiczne korpusy serwisu CLARIN-PL dSpace

Files source- public corpora of CLARIN-PL dSpace service

Wczytywanie danych...Loading data...

Źródło plików- Twoje prywatne pliki przechowywane w serwisie CLARIN-PL Nextcloud. Files source- your private files stored in CLARIN-PL Nextcloud service.