Kvistur: Vélræn stofnhlutagreining samsettra orða

  • Jón Friðrik Daðason Háskóli Íslands
  • Kristín Bjarnadóttir Stofnun Árna Magnússonar í íslenskum fræðum
máltækni, orðskipting, stofnhlutagreining, samsett orð

Útdráttur

Íslensk orðmyndun er mjög virk og margsamsett orð eru mjög algeng í málinu. Vegna þessa er hlutfall óþekktra orða í íslenskum textum venjulega mjög hátt en máltæknitól eiga oft í vandræðum með að greina orð sem ekki er að finna í orðasöfnunum sem þau nota. Kvistur er orðhlutaskiptingartól sem skiptir samsettum orðum og sýnir stofnhlutatré fyrir þau. Þetta er gert með því að meta líkurnar á því að tveir samhliða liðir í samsettu orði myndi stofnhluta og bera orðgerðina (tréð) saman við gögn. Þar er byggt á greiningu á ríflega 240 þúsund samsettum orðum úr Beygingarlýsingu íslensks nútímamáls, auk tíðnitalna úr textasafni með yfir 550 milljónum lesmálsorða, Íslenskum orðasjóði. Nýjungin við Kvist er að hann sýnir stofnhlutatré orðanna í stað þess að skipta þeim einfaldlega í línulega röð af ósamsettum stofnhlutum eins og gert er með þeim aðferðum sem venjulega eru notaðar. Einn af kostum þess að nota aðferðina sem hér er lýst er að með þessu móti má ganga eins langt í greiningunni og þörf er á hverju sinni, þ.e. láta meginskiptingu orðs duga þegar það á við en fullgreina orðin þegar þörf krefur.

Heimildir

Adda-Decker, M., G. Adda og L. Lamel. 2000. Investigating text normalization and pronunciation variants for German broadcast transcription. Proceedings of ICSLP, bls. 66–269.

Alfonseca, E., S. Bilac og S. Pharies. 2008. German Decompounding in a Difficult Corpus. Í: A. Gelbukh (ritstj.). Computational Linguistics and Intelligent Text Processing. Vol. 4919, bls. 128–129. Berlín/Heidelberg: Springer.

Anna Björk Nikulásdóttir og Matthew Whelpton. 2010. Extraction of Semantic Relations as a Basis for a Future Semantic Database for Icelandic. Proceedings of 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages (Workshop 22 of 7th Language Resources and Evaluation Conference), bls. 33–39. Valletta.

Beygingarlýsing íslensks nútímamáls (BÍN). Ritstj. Kristín Bjarnadóttir. bin.arnastofnun.is.

Bergenholtz, Henning, Ilse Cantell, Ruth Vatvedt Fjeld, Dag Gundersen, Jón Hilmar Jónsson og Bo Svensén. 1997. Nordisk leksikografisk ordbok. Nordisk forening for leksikografi. Skrift nr. 4. Ósló: Universitetsforlaget AS.

Braschler, M., Al Göhring og P. Schäuble. 2003. Eurospider at CLEF 2002. Í: C. Peters, M. Braschler og J. Gonzalo (ritstj.). Advances in Cross Language Information Retrieval. Vol. 2785, bls. 164–174. Berlín/Heidelberg: Springer.

Brown, R. D. 2002. Corpus-Driven Splitting of Compound Words. Proceedings of the Ninth International Conference on Theoretical and Methodological Issues in Machine Translations (TMI-2002).

Erla Hallsteinsdóttir, T. Eckart, C. Biemann, U. Quasthoff og M. Richter. 2007. Íslenskur Orðasjóður – Building a Large Icelandic Corpus. Proceedings of NODALIDA-07. Tartu.

Hedlund T., H. Keskustalo, A. Pirkola, E. Airio og K. Järvelin. 2001. Utaclir @ CLEF 2001 – effects of compound splitting and n-gram techniques. Second Workshop of the Cross-Language Evaluation Forum (CLEF), Revised Papers.

Hrafn Loftsson, Ida Kramarczyk, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2009. Improving the PoS tagging accuracy of Icelandic text. Í: Kristiina Jokinen og Eckhard Bick (ritstj.). NODALIDA 2009 Conference Proceedings, bls. 103–110.

Íslenskur orðasjóður. Universität Leipzig. http://wortschatz.uni-leipzig.de/ws_isl/.

Jón Friðrik Daðason, Kristín Bjarnadóttir og Kristján Rúnarsson. 2014. The Journal Fjölnir for Everyone: The Post-Processing of Historical OCR Texts. Proceedings of Language Resources and Technologies for Processing and Linking Historical Documents and Archives (LRT7HDA), bls. 56–62. LREC 2014. Reykjavík.

Jón Hilmar Jónsson. 2012. Að fanga orðaforðann: orðanet í þágu orðabókar. Orð og tunga 14:39–65.

Koehn, P. og K. Knight. 2003. Empirical methods for compound splitting. Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics, Volume 1. Búdapest.

Kristín Bjarnadóttir. 1995. Lexicalization and the Selection of Compounds for a Bilingual Icelandic Dictionary Base. Í: Ásta Svavarsdóttir, Guðrún Kvaran og Jón Hilmar Jónsson (ritstj.). Nordiske studier i leksikografi 3:255–263.

Kristín Bjarnadóttir. 1996. Óbirt gagnasafn um samsett orð (sjá Kristínu Bjarnadóttur 2005).

Kristín Bjarnadóttir. 2000a. „Rökleysa, lögbrot og hin gyðjumlíka Cameron Diaz.“ Orðhagi, afmæliskveðja til Jóns Aðalsteins Jónssonar, 12. október 2000, bls. 83–87. Reykjavík.

Kristín Bjarnadóttir. 2000b. Þágufallssamsetningar í Ritmálssafni Orðabókar Háskólans. http://www.lexis.hi.is/kristinb/datsams.html.

Kristín Bjarnadóttir. 2002. A Short Description of Icelandic Compounds. http://www.lexis.hi.is/kristinb/comp-short.pdf.

Kristín Bjarnadóttir. 2005. Afleiðsla og samsetning í generatífri málfræði og greining á íslenskum gögnum. Reykjavík: Orðabók Háskólans.

Kristín Bjarnadóttir. 2012. The Database of Modern Icelandic Inflection. Proceedings of the workshop Language Technology for Normalization of Less-Resourced Languages, SaLTMiL 8 - AfLaT, LREC 2012, bls. 13–18. Istanbúl.

Magnús Snædal. 1992. Hve langt má orðið vera? Íslenskt mál 14:173–207.

Mannanafnanefnd. 2005. Úrskurður nr. 59/2005. http://www.urskurdir.is/DomsOgKirkjumala/Mannanafnanefnd/2005/06.

Mörkuð íslensk málheild (MÍM). Ritstj. Sigrún Helgadóttir. mim.arnastofnun.is.

Ritmálssafn Orðabókar Háskólans. http://www.arnastofnun.is/page/gagnasofn_ritmalssafn.

Schiller, A. 2005. German Compound Analysis with wfsc. Proceedings of the Fifth International Workshop of Finite State Methods in Natural Language Processing (FSMNLP), bls. 239–246. Helsinki.

Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarnadóttir og Hrafn Loftsson. 2012. The Tagged Icelandic Corpus (MÍM). Proceedings of the SaLTMiL-AfLaT Workshop on “Language technology for normalisation of less-resourced languages”, 8th International Conference on Language Resources and Evaluation (LREC 2012). Istanbúl.

timarit.is

Útgáfudagur
2015-06-01
Tegund
Ritrýndar greinar