Beygingarlýsing íslensks nútímamáls

Regluverk eða beygingar

  • Kristín Bjarnadóttir Stofnun Árna Magnússonar í íslenskum fræðum / Hásk´óli Íslands

Útdráttur

Í greininni er fjallað um Beygingarlýsingu íslensks nútímamáls (BÍN) sem er safn ríflega 270 þúsund beygingardæma, með yfir 5,8 milljón beygingarmyndum. Tilgangurinn með BÍN er margþættur og verkið er ætlað til nota í máltækni, orðabókargerð og til upplýsingar fyrir almenning á vefnum. Þrátt fyrir langa hefð í málfræðirannsóknum var ljóst frá upphafi að gögn til þess að setja fram reglukerfi fyrir íslenska beygingakerfið væru ekki tiltæk, ef markmiðið er að sýna allar og aðeins þær myndir sem raunverulega eru til í nútímamáli. Reglukerfi sem byggt er á fyrirliggjandi gögnum í upphafi verks hefði orðið bæði van- og ofvirkt, þ.e. það hefði sleppt beygingarmyndum og búið til myndir sem enginn fótur er fyrir. Vegna þessa var ákveðið að búa til gagnasafn með beygingardæmum þar sem allar myndir eru vistaðar. Í greininni er sagt frá vinnulagi við gerð BÍN og heimildum. Í upphafi var orðaforðinn í BÍN fenginn úr orðabókarefni en með tilkomu Markaðrar íslenskrar málheildar (MÍM) gefst í fyrsta sinn tækifæri til að skoða beygingarkerfið í ljósi raungagna svo nokkru nemi. Niðurstaða af samanburði á BÍN og MÍM er sú að stærð markamengisins valdi gagnaskorti og því er tæplega hægt að lýsa íslenska beygingarkerfinu eingöngu út frá málheild.

Heimildir

Anton Karl Ingason, Hrafn Loftsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2008. A Mixed Method Lemmatization Algorithm Using a Hi- erarchy of Linguistic Identities (HOLI). Í: Raante, Arne, og Bengt Nord- ström (ritstj.): Advances in Natural Language Processing, s. 205–216. (Lecture Notes in Computer Science, Vol. 5221.) Berlín: Springer.

Ásta Svavarsdóttir. 1993. Beygingakerfi nafnorða í nútímaíslensku. Reykjavík: Málvísindastofnun Háskóla Íslands.

Eiríkur Rögnvaldsson. 1990. Íslensk orðhlutafræði. Reykjavík: Málvísindastofnun Háskóla Íslands.

Eiríkur Rögnvaldsson 1998. Málfræði í íslenskri orðabók: Hvernig og til hvers? Orð og tunga 4:25–32.

Eiríkur Rögnvaldsson, Hrafn Loftsson, Kristín Bjarnadóttir, Sigrún Helga- dóttir, Anna B. Nikulásdóttir, Matthew Whelpton og Anton Karl Ingason. 2009. Icelandic Language Resources and Technology: Status and Pros- pects. Proceedings of the NODALIDA 2009 Workshop Nordic Perspectives on the CLARIN Infrastructure of Language Resources. Odense.

Friðrik Magnússon. 1984. Ein lítil beygingarending. Mímir 32:33–43.

Guðrún Kvaran. 2005. Orð. Handbók um beygingar- og orðmyndunarfræði. Íslensk tunga 2. Reykjavík: Almenna bókafélagið.

Guðrún Kvaran og Sigurður Jónsson frá Arnarvatni. 1991. Nöfn Íslendinga (1.útg.). Reykjavík: Heimskringla.

Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2010. Developing a PoS-tagged corpus using existing tools. Sarasola, Kepa, Francis M. Tyers og Mikel L. Forcada (ritstj.), SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages, LREC 2010, s. 53-60. Valetta, Möltu. [Rafræn útgáfa 8.7.2013: https://notendur.hi.is/eirikur/corpustagging.pdf.]

Jón Friðrik Daðason. 2012. The Post-Correction of Icelandic OCR Text. Skemman.is. [http://hdl.handle.net/1946/12085]

Jörgen Pind, Friðrik Magnússon og Stefán Briem. 1991. Íslensk orðtíðnibók. Reykjavík: Orðabók Háskólans.

Jörgen Pind, Kristín Bjarnadóttir, Jón Hilmar Jónsson, Guðrún Kvaran, Friðrik Magnússon og Ásta Svavarsdóttir. 1993. Using a Computer Corpus to Supplement a Citation Collection for a Historical Dictionary. International Journal of Lexicography 6/1:1–18.

Kristín Bjarnadóttir. 1998. Norræna verkefnið. [8.7.2013: http://lexis.hi.is/ kristinb/norr.pdf.]

Kristín Bjarnadóttir. 2006. Málfræði í orðabókum. Orð og tunga 8:27–43.
Kristín Bjarnadóttir. 2010. Algilt -i eða hverfult: Um þágufall eintölu í sterkum hvorugkynsnafnorðum. 24. Rask-ráðstefnan 30. janúar 2010. [http://lexis.
hi.is/kristinb/KB-Rask2010.pdf.]

Kristín Bjarnadóttir. 2012. The Database of Modern Icelandic Inflection. Proceedings of “Language Technology for Normalization of Less-Resourced Languages”, SaLTMiL 8 – AfLaT 2012. Istanbul, Tyrklandi. [Rafræn útgáfa 8.7.2013: http://www.lexis.hi.is/kristinb/lrec2012-dmii.pdf.]

Mörður Árnason (ritstj.). 2000. Íslensk orðabók. Rafræn útgáfa. Reykjavík: Edda hf.

Rask, Rasmus Christian. 1811. Vejledningen til det Islandske eller gamle nordiske Sprog. Köbenhavn: Schubothes Forlag.

Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarna- dóttir og Hrafn Loftssson. 2012. The Tagged Icelandic Corpus (MÍM). Proceedings of “Language Technology for Normalization of Less-Resourced Languages”, SaLTMiL 8 – AfLaT 2012. Istanbul, Tyrklandi. [Rafræn útgáfa 8.7.2013: http://www.lexis.hi.is/kristinb/lrec2012SH-saltmil.pdf.]

Valtýr Guðmundsson. 1922. Islandsk grammatik. Kaupmannahöfn: Hagerup.
Útgáfudagur
2020-07-07
Tegund
Ritrýndar greinar