Sjálfvirk greining merkingarvensla í Íslenskri orðabók

  • Anna Björk Nikulásdóttir Ruprecht Karls-Universität Heidelberg
merkingarfræði orða, merkingarvensl, orðabókaskýringar, orðflokkamynstur

Útdráttur

Við hönnun og gerð rafrænna orðabóka er mögulegt að skipuleggja upplýsingarnar með tilliti til merkingar flettiorðanna. Í greininni er kynnt aðferð til þess að draga fram merkingarvensl á grundvelli orðabókarskýringa á sjálfvirkan hátt. Skýringar við allar nafnorðsflettur í Íslenskri orðabók voru greindar. Fyrst voru skýringarnar markaðar með TnT-markara Brants sem hefur verið þjálfaður á íslenskri málheild. Þegar búið var að marka efniviðinn voru orðflokkamynstur í skýringunum greind og á grundvelli þeirra voru settar fram reglur um merkingarleg vensl. Regluforskriftin var skrifuð í forritunarmálinu Smalltalk og leiddi af sér tólið MERKOR. Niðurstöður greiningarinnar lofa góðu. Prófin voru gerð á tilviljunarúrtaki flettiorða, u.þ.b. 1,34% gagnanna. Í hverju orði gat niðurstaðan verið alveg rétt, þ.e.a.s. að öll merkingarvensl sem greind voru handvirkt fundust í greiningu með MERKOR, eða hún gat verið rétt að hluta, þ.e.s.a. ef MERKOR fann ekki öll vensl sem greind höfðu verið handvirkt en greindi þó orð eða merkingarvensl eigi að síður aldrei rangt. Nákvæmnin reyndist vera frá  82,13% (alveg rétt greining) upp í 94,77% (algjörlega rétt greining eða rétt að hluta).  
Útgáfudagur
2020-07-25
Tegund
Smágreinar