Katalóg nástrojov pre spracovanie slovenského textu.

Spracovanie prirodzeného jazyka (z angličtiny skratka NLP) je podoblasť lingvistiky, informatiky a umelej inteligencie, ktorá sa zaoberá komunikáciou medzi počítačmi a ľudským jazykom.

V rámci tohto projektu sa snažíme vybudovať adresár NLP nástrojov, slovníkov, datasetov a aplikácií, ktoré je možné využiť na spracovanie textu v slovenskom jazyku. Keďže spracovaniu slovenského textu sa nevenuje toľko pozornosti, ako v iných jazykoch, neexistuje ani veľa nástrojov, ktoré je možné pre slovenčinu využiť. Na tomto mieste preto plánujeme uchovávať aktuálne informácie o nástrojoch, ktoré sú k dispozícii pre slovenčinu. V katalógu rozlišujeme 4 typy položiek:

NLP nástroje sú samostatne funkčné nástroje, ktoré poskytujú nejakú funkcionalitu na spracovanie textu (napr. identifikácia slovných druhov v texte alebo sentimentu). Môže ísť o aplikácie na stiahnutie alebo online nástroje dostupné cez web rozhranie alebo aplikačné rozhranie (tzv. API).

Datasety alebo dáta sú kolekcie textov (slov, viet ...), ktoré je možné využiť na experimenty pri vývoji NLP nástrojov. Napríklad na vzájomné porovnanie výkonnosti rôznych algoritmov či nástrojov, alebo pri tvorbe nových nástrojov.

Slovníky (databázy slov, pojmov, entít...) sú tzv. lingvistické dáta, pomocou ktorých vieme spracovať text, identifikovať lexikálne, syntaktické alebo sémantické informácie o slovách v texte a kvalitnejšie tak pochopiť význam textu.

Rozšírenia (z angl. extensions) sú rôzne menšie programy, ktorý poskytujú funkcionalitu pre špecifickú úlohu a prostredie (napr. rozšírenie pre webový prehliadač alebo nejakú službu).

 Ak poznáte ďalšie užitočné nástroje na spracovanie textu, ktorý by bolo vhodné zaradiť do katalógu, pokojne nás kontaktujte na adresách uvedených nižšie.


Kontakt

Správcom katalógu je Kempelenov inštitút inteligentných technológií (KInIT).

Email: katalog@kinit­.sk