Mörkun íslensks texta

  • Sigrún Helgadóttir Stofnun Árna Magnússonar í íslenskum fræðum
mark, mörkun, markari

Útdráttur

Í þessari grein er greint frá niðurstöðum tilrauna við að marka íslenskan texta vélrænt. Til er textasafn þar sem hverju orði fylgir greiningarstrengur sem segir til um orðflokk orðsins og beygingarmynd þess. Þetta textasafn varð til við undirbúning Íslenskrar orðtíðnibókar. Í textasafninu eru 590.297 lesmálsorð sem birtast í 59.358 mismunandi orðmyndum að meðtöldum greinarmerkjum. Lesmálsorðunum fylgja 639 mismunandi greiningarstrengir að meðtöldum greinarmerkjum. Textasafnið var notað til þess að kenna fimm forritum, fnTBL, TnT, MXPOST, µ-TBL og MBT að greina íslenskan texta á sama hátt. Úr textasafninu voru búin til 10 pör þjálfunar- og prófunarsafna þar sem prófunarsöfnin eru óháð en þjálfunarsöfnin skarast um 80%. Forritin voru prófuð á þessum efnivið. Bestur árangur náðist með TnT-forritinu eða 90,36% nákvæmni að meðaltali. Búið var til orðasafn með u.þ.b. helming óþekktra orða í hverju prófunarsafni með tilliti til samsvarandi þjálfunarsafns. TnT- forritið og fnTBL-forritið gefa kost á að nota slíkt hjálparorðasafn. Þegar markað var með aðstoð slíks orðasafns náðist 91,54% nákvæmni með TnT og 90,06% með fnTBL. Síðan voru prófaðar aðferðir til þessa að kjósa á milli greiningarstrengja sem kerfin þrjú úthlutuðu lesmálsorðum. Þegar vegið er með heildarnákvæmni forritanna og kosið um greiningarstrengi sem þeir úthluta fékkst 91,54% nákvæmni. Nákvæmni hækkaði í 91,81% þegar kostir MXPOST-forritsins við m.a. að greina á milli falla nafnorða voru nýttir. Einnig var prófað einfalda greiningarstrengi þannig að aðeins var greindur orðflokkur atviksorða og samtenginga og fornafnaflokkum var slegið saman. Þá fékkst 91,83% nákvæmni með TnT-forritinu. Að lokum var prófað að beita aðferðunum hverri á fætur annarri. Besta niðurstaða, 93,65%, fæst með því að nota orðasafn við mörkun með fnTBL og TnT, einfalda mörk markaranna, kjósa á milli einfaldaðra marka og beita síðan reglum. Villum fækkar um 34% miðað við niðurstöðu mörkunar með TnT eingöngu. Líklegt er að unnt sé að ná meiri nákvæmni með því að nýta Beygingarlýsingu sem gerð hefur verið á Orðabók Háskólans. Einnig voru gerðar tilraunir við að marka ólíka texta sem koma ekki fyrir í textasafni Orðtíðnibókarinnar.

Útgáfudagur
2020-07-26
Tegund
Smágreinar