Tokenizácia slovenského textu

Nástroj na tokenizáciu textu, teda rozdelenie vstupného textu na menšie časti - tokeny. Extrakcia slov a viet.

Kľúčové slová:  tokenizácia  rozdelenie textu

Odkaz
Tokenizácia slovenského textu  

Opis nástroja

Tokenizácia je v zmysle spracovania textu úloha, pri ktorej sa vstupný text rozdelí na menšie časti - tokeny. Tokenom je sekvencia znakov oddelená medzerou. Často pojmom token označuje slovo, ale tokenom môže byť aj znak (napr. bodka, otáznik, apostrof a pod.). Naopak, ak je v texte číslo obsahujúce medzery, inteligentnejší tokenizátor by mal toto číslo spojiť do jedného tokenu.

Príklad tokenizácie:

Veta: Janka kúpila 2,5 kg jahôd.
Tokeny: [Janka] [kúpila] [2,5] [kg] [jahôd] [.]

Licencia

Pre nekomerčné (výskumné alebo vzdelávacie) účely.