Tokenizácia - NLP nástroje

Rozdelenie textu na menšie časti nazývané tokeny. Tokenom môže byť slovo ako sekvencia znakov, prípadne identifikácia špeciálnych neslovných znakov (zátvorky, bodky a pod.).

Nájdené záznamy: 9

Anonymizácia textu

Skrývanie (anonymizovanie) špecifických častí textu: citlivé údaje, emailové adresy, URL adresy, bankové účty, adresy a pod.

Použitie: API Online

detail  

Extrakcia časových údajov

Extrakcia a identifikácia časových údajov zo slovenského textu: dátumy, časy, obdobia a pod.

Použitie: API Online

detail  

Extrakcia číselných dát

Extrakcia a identifikácia číselných dát z textu: číslice, čísla, meny, percentá a pod.

Použitie: API Online

detail  

Extrakcia názvoslovných entít

Identifikácia a extrakcia názvoslovných entít z textu: mená osôb, názvy lokalít (miest, obcí, štátov, riek, pohorí ...), organizácií a pod.

Použitie: API Online

detail  

Extrakcia pojmov

Identifikácia a extrakcia pojmov z textu zaradených do taxonómie (hierarchie sémantických kategórií).

Použitie: API Online

detail  

Extrakcia veličín a jednotiek

Identifikácia a extrakcia fyzikálnych veličín a jednotiek: hmotnosť, dĺžka, čas, objem ...

Použitie: API Online

detail  

Extrakcia vulgarizmov a neslušných slov

Identifikácia a extrakcia nevhodných slov v texte (toxické slová, vulgarizmy, pejoratíva, nadávky...)

Použitie: API Online

detail