Kvistur: Vélræn stofnhlutagreining samsettra orða

  • Jón Friðrik Daðason Háskóli Íslands
  • Kristín Bjarnadóttir Stofnun Árna Magnússonar í íslenskum fræðum
máltækni, orðskipting, stofnhlutagreining, samsett orð

Útdráttur

Íslensk orðmyndun er mjög virk og margsamsett orð eru mjög algeng í málinu. Vegna þessa er hlutfall óþekktra orða í íslenskum textum venjulega mjög hátt en máltæknitól eiga oft í vandræðum með að greina orð sem ekki er að finna í orðasöfnunum sem þau nota. Kvistur er orðhlutaskiptingartól sem skiptir samsettum orðum og sýnir stofnhlutatré fyrir þau. Þetta er gert með því að meta líkurnar á því að tveir samhliða liðir í samsettu orði myndi stofnhluta og bera orðgerðina (tréð) saman við gögn. Þar er byggt á greiningu á ríflega 240 þúsund samsettum orðum úr Beygingarlýsingu íslensks nútímamáls, auk tíðnitalna úr textasafni með yfir 550 milljónum lesmálsorða, Íslenskum orðasjóði. Nýjungin við Kvist er að hann sýnir stofnhlutatré orðanna í stað þess að skipta þeim einfaldlega í línulega röð af ósamsettum stofnhlutum eins og gert er með þeim aðferðum sem venjulega eru notaðar. Einn af kostum þess að nota aðferðina sem hér er lýst er að með þessu móti má ganga eins langt í greiningunni og þörf er á hverju sinni, þ.e. láta meginskiptingu orðs duga þegar það á við en fullgreina orðin þegar þörf krefur.

Útgáfudagur
2015-06-01
Tegund
Ritrýndar greinar