Extrakcia názvoslovných entít
Identifikácia a extrakcia názvoslovných entít z textu: mená osôb, názvy lokalít (miest, obcí, štátov, riek, pohorí ...), organizácií a pod.
Odkaz
Extrakcia názvoslovných entít
Opis nástroja
Štandardne sa pri úlohe NER (identifikácia názvoslovných entít) rozdeľujú pojmy do 4 kategórii: mená osôb (PER), lokality (LOC), organizácie (ORG) a ostatné (OTH). Tento nástroj identifikuje entity patriace do viacerých kategórií, pričom využíva dvojúrovňovú klasifikáciu tried. Prvá úroveň je prevzatá z bežne používaných NER tried a druhá úroveň oddelená znakom lomítka (/) bližšie určuje typ entity.
Nižšie uvádzame zoznam najviac používaných tried. Kompletný zoznam tried nájdete v dokumentácii na http://arl6.library.sk/nlp4sk/help#chapter_ner
- PER = mená osôb
- prvé meno: PER/name
- priezvisko: PER/surname
- titul osoby: PER/title
- LOC = názvy lokalít
- štáty a krajiny: LOC/country
- obce, mestá, dediny: LOC/municipality
- vrchy: LOC/peak
- vodné plochy: LOC/waterarea
- geografické oblasti LOC/area (napr. kontinenty, regióny...)
- ...
- ORG = organizácie
- politické strany: ORG/politic
- obchodné reťazce: ORG/shopstore
- firmy: ORG/company
- ...
- TMP = časové údaje
- dátumy: TMP/date
- obdobia: TMP/season
- ...
- OTH = ostatné
- meny OTH/currency
- číselné údaje OTH/number
- ...
Licencia
Pre nekomerčné (výskumné alebo vzdelávacie) účely.