Tokenizácia slovenského textu
Nástroj na tokenizáciu textu, teda rozdelenie vstupného textu na menšie časti - tokeny. Extrakcia slov a viet.
Kľúčové slová: tokenizácia rozdelenie textu
Odkaz
Tokenizácia slovenského textu
Opis nástroja
Tokenizácia je v zmysle spracovania textu úloha, pri ktorej sa vstupný text rozdelí na menšie časti - tokeny. Tokenom je sekvencia znakov oddelená medzerou. Často pojmom token označuje slovo, ale tokenom môže byť aj znak (napr. bodka, otáznik, apostrof a pod.). Naopak, ak je v texte číslo obsahujúce medzery, inteligentnejší tokenizátor by mal toto číslo spojiť do jedného tokenu.
Príklad tokenizácie:
Veta: Janka kúpila 2,5 kg jahôd.
Tokeny: [Janka] [kúpila] [2,5] [kg] [jahôd] [.]
Tokeny: [Janka] [kúpila] [2,5] [kg] [jahôd] [.]
Licencia
Pre nekomerčné (výskumné alebo vzdelávacie) účely.