Extrakcia názvoslovných entít

Identifikácia a extrakcia názvoslovných entít z textu: mená osôb, názvy lokalít (miest, obcí, štátov, riek, pohorí ...), organizácií a pod.

Kľúčové slová:  extrakcia  ner

Odkaz
Extrakcia názvoslovných entít  

Opis nástroja

Štandardne sa pri úlohe NER (identifikácia názvoslovných entít) rozdeľujú pojmy do 4 kategórii: mená osôb (PER), lokality (LOC), organizácie (ORG) a ostatné (OTH). Tento nástroj identifikuje entity patriace do viacerých kategórií, pričom využíva dvojúrovňovú klasifikáciu tried. Prvá úroveň je prevzatá z bežne používaných NER tried a druhá úroveň oddelená znakom lomítka (/) bližšie určuje typ entity.

Nižšie uvádzame zoznam najviac používaných tried. Kompletný zoznam tried nájdete v dokumentácii na http://arl6.library.sk/nlp4sk/help#chapter_ner  

  • PER = mená osôb
    • prvé meno: PER/name
    • priezvisko: PER/surname 
    • titul osoby: PER/title
  • LOC = názvy lokalít
    • štáty a krajiny: LOC/country
    • obce, mestá, dediny: LOC/municipality
    • vrchy: LOC/peak
    • vodné plochy: LOC/waterarea
    • geografické oblasti LOC/area (napr. kontinenty, regióny...)
    • ...
  • ORG = organizácie
    • politické strany: ORG/politic
    • obchodné reťazce: ORG/shopstore
    • firmy: ORG/company
    • ...
  • TMP = časové údaje
    • dátumy: TMP/date
    • obdobia: TMP/season
    • ...
  • OTH = ostatné
    • meny OTH/currency
    • číselné údaje OTH/number
    • ...

Licencia

Pre nekomerčné (výskumné alebo vzdelávacie) účely.