Sjálfvirk greining merkingarvensla í Íslenskri orðabók
Höfundar
Anna Björk Nikulásdóttir
Ruprecht Karls-Universität Heidelberg
Höfundur
Útdráttur
Við hönnun og gerð rafrænna orðabóka er mögulegt að skipuleggja upplýsingarnar með tilliti til merkingar flettiorðanna. Í greininni er kynnt aðferð til þess að draga fram merkingarvensl á grundvelli orðabókarskýringa á sjálfvirkan hátt. Skýringar við allar nafnorðsflettur í Íslenskri orðabók voru greindar. Fyrst voru skýringarnar markaðar með TnT-markara Brants sem hefur verið þjálfaður á íslenskri málheild. Þegar búið var að marka efniviðinn voru orðflokkamynstur í skýringunum greind og á grundvelli þeirra voru settar fram reglur um merkingarleg vensl. Regluforskriftin var skrifuð í forritunarmálinu Smalltalk og leiddi af sér tólið MERKOR. Niðurstöður greiningarinnar lofa góðu. Prófin voru gerð á tilviljunarúrtaki flettiorða, u.þ.b. 1,34% gagnanna. Í hverju orði gat niðurstaðan verið alveg rétt, þ.e.a.s. að öll merkingarvensl sem greind voru handvirkt fundust í greiningu með MERKOR, eða hún gat verið rétt að hluta, þ.e.s.a. ef MERKOR fann ekki öll vensl sem greind höfðu verið handvirkt en greindi þó orð eða merkingarvensl eigi að síður aldrei rangt. Nákvæmnin reyndist vera frá 82,13% (alveg rétt greining) upp í 94,77% (algjörlega rétt greining eða rétt að hluta).