Mörkun íslensks texta

  • Sigrún Helgadóttir Stofnun Árna Magnússonar í íslenskum fræðum
mark, mörkun, markari

Útdráttur

Í þessari grein er greint frá niðurstöðum tilrauna við að marka íslenskan texta vélrænt. Til er textasafn þar sem hverju orði fylgir greiningarstrengur sem segir til um orðflokk orðsins og beygingarmynd þess. Þetta textasafn varð til við undirbúning Íslenskrar orðtíðnibókar. Í textasafninu eru 590.297 lesmálsorð sem birtast í 59.358 mismunandi orðmyndum að meðtöldum greinarmerkjum. Lesmálsorðunum fylgja 639 mismunandi greiningarstrengir að meðtöldum greinarmerkjum. Textasafnið var notað til þess að kenna fimm forritum, fnTBL, TnT, MXPOST, µ-TBL og MBT að greina íslenskan texta á sama hátt. Úr textasafninu voru búin til 10 pör þjálfunar- og prófunarsafna þar sem prófunarsöfnin eru óháð en þjálfunarsöfnin skarast um 80%. Forritin voru prófuð á þessum efnivið. Bestur árangur náðist með TnT-forritinu eða 90,36% nákvæmni að meðaltali. Búið var til orðasafn með u.þ.b. helming óþekktra orða í hverju prófunarsafni með tilliti til samsvarandi þjálfunarsafns. TnT- forritið og fnTBL-forritið gefa kost á að nota slíkt hjálparorðasafn. Þegar markað var með aðstoð slíks orðasafns náðist 91,54% nákvæmni með TnT og 90,06% með fnTBL. Síðan voru prófaðar aðferðir til þessa að kjósa á milli greiningarstrengja sem kerfin þrjú úthlutuðu lesmálsorðum. Þegar vegið er með heildarnákvæmni forritanna og kosið um greiningarstrengi sem þeir úthluta fékkst 91,54% nákvæmni. Nákvæmni hækkaði í 91,81% þegar kostir MXPOST-forritsins við m.a. að greina á milli falla nafnorða voru nýttir. Einnig var prófað einfalda greiningarstrengi þannig að aðeins var greindur orðflokkur atviksorða og samtenginga og fornafnaflokkum var slegið saman. Þá fékkst 91,83% nákvæmni með TnT-forritinu. Að lokum var prófað að beita aðferðunum hverri á fætur annarri. Besta niðurstaða, 93,65%, fæst með því að nota orðasafn við mörkun með fnTBL og TnT, einfalda mörk markaranna, kjósa á milli einfaldaðra marka og beita síðan reglum. Villum fækkar um 34% miðað við niðurstöðu mörkunar með TnT eingöngu. Líklegt er að unnt sé að ná meiri nákvæmni með því að nýta Beygingarlýsingu sem gerð hefur verið á Orðabók Háskólans. Einnig voru gerðar tilraunir við að marka ólíka texta sem koma ekki fyrir í textasafni Orðtíðnibókarinnar.

Heimildir

Borin, Lars. 2000. Something borrowed, something blue: Rule-based combination of POS taggers. Second International Conference on Language Resources and Evaluation, Athens 31 May – 2 June, 2000, bls. 21–26.

Brants, Thorsten. 2000a. TnT - A Statistical Part-of-Speech Tagger. Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, bls. 224–231. Seattle, Washington, USA.

Brants, Thorsten. 2000b. TnT - A Statistical Part-of-Speech Tagger. Version 2.2.

http://www.coli.uni-sb.de/~thorsten/tnt/

Brill, Eric. 1994. Some Advances in Rule-Based Part of Speech Tagging. Proceedings of the 12th National Conference on Artificial Intelligence (AAAI-94), bls. 722–727. Seattle,Washington.

Brill, Eric. 1995. Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging. Computational Linguistics, December 1995: 543–563.

Daelemans, Walter, Jakub Zavrel, Ko van der Sloot, and Antal van den Bosch. 2003. MBT: Memory-Based Tagger, Reference Guide. ILK Technical Report 03-13, http://ilk.uvt.nl/downloads/pub/papers/ilk.0313.pdf

Daelemans, Walter, Jakub Zavrel, Ko van der Sloot, and Antal van den Bosch. 2004.TiMBL: Tilburg Memory Based Learner, version 5.1, Reference Guide. ILK Technical Report 04-02, http://ilk.uvt.nl/downloads/pub/papers/ilk0402.pdf

Eiríkur Rögnvaldsson, Auður Þórunn Rögnvaldsdóttir, Kristín Bjarnadóttir og Sigrún Helgadóttir. 2002. Vélræn málfræðigreining með námfúsum markara. Orð og tunga 6:1–9.

Florian, Radu and Grace Ngai. 2002. Fast Transformation-Based Learning Toolkit. http://nlp.cs.jhu.edu/~rflorian/fntbl/tbl-toolkit/tbl-toolkit.html

Friðrik Magnússon. 1988. Hvað er títt? Tíðnikönnun Orðabókar Háskólans. Orð og tunga 1:1–49.

Van Halteren, Hans, Jakub Zavrel and Walter Daelemans. 2001. Improving Accuracy in Wordclass Tagging through Combination of Machine Learning Systems. Computational Linguistics 27 (2), bls. 199–230.

Hrafn Loftsson. 2006. Tagging Icelandic text: A linguistic rule-based approach. Technical Report CS-06-04, Department of Computer Science, University of Sheffield.

Jörgen Pind (ritstj.), Friðrik Magnússon, Stefán Briem. 1991. Íslensk orðtíðnibók. Orða- bók Háskólans, Reykjavík.

Kristín Bjarnadóttir. 2004. Beygingarlýsing íslensks nútímamáls. Samspil tungu og tækni. Menntamálaráðuneytið, Reykjavík.

Manning, Christopher D. and Hinrich Schütze. 2001. Foundations of Statistical Natural Language Processing. MIT Press. Cambridge, Massachusetts. London, England.

Megyesi, Beata. 2002. Data-Driven Syntactic Analysis – Methods and Applications for Swedish. Ph.D.Thesis. Department of Speech, Music and Hearing, KTH, Stockholm, Sweden.

Ratnaparkhi, A. 1996. A Maximum Entropy Model for Part-of-Speech Tagging. In

Proceedings of the Conference on Empirical Mehods in Natural Lanugage Processing (EMNLP-96), bls. 133–143. Philadelphia. PA.

Ratnaparkhi, A. 1997. A Simple Introduction to Maximum Entropy Models for Natural Language Processing. Technical Report 97-08, Institute for Research in Cognitive Science, University of Pennsylvania.

Rögnvaldur Ólafsson, Þorgeir Sigurðsson, Eiríkur Rögnvaldsson. 1999. Tungutækni. Skýrsla starfshóps. Menntamálaráðuneytið.

Samuelsson, Christer. 1993. Morphological tagging based entirely on Bayesian inference. 9th Nordic Conference on Computational Linguistics NODALIDA-93, bls. 225– 238. Stockholm University, Stockholm, Sweden.

Sigrún Helgadóttir. 2002. The Icelandic μTBL Experiment: Learning rules from four different training corpora by using the μ-TBL System – Further developments. Term paper in NLP 1, GSLT.

Sigrún Helgadóttir and Örvar Kárason. 2005. Memory-Based Learning Assignment. Term paper in Machine Learning, GSLT.

Stefán Briem. 1990. Automatisk morfologisk analyse af islandsk tekst. Jörgen Pind og Eiríkur Rögnvaldsson (ritstj.). Papers from the Seventh Scandinavian Conference of Computational Linguistics Reykjavík 1989:3–13. Institute of Lexicography, Institute of Linguistics, Reykjavík.

Útgáfudagur
2020-07-26
Tegund
Smágreinar