Risamálheildin

  • Steinþór Steingrímsson Stofnun Árna Magnússonar í íslenskum fræðum
málheild, íslenska, mörkun, lemmun

Útdráttur

Í maí 2018 var ný textamálheild, Risamálheildin, opnuð á vefnum málheildir.árnastofnun.is. Risamálheildin er leitarbær í leitarvél sem er sérsmíðuð fyrir málheildir og aðlöguð að íslenskum textum en einnig er hægt að sækja alla textana sem í henni eru, markaða og lemmaða, til nota við þróun á máltæknibúnaði eða í rannsóknir. Fyrsta útgáfa málheildarinnar inniheldur yfir 1200 milljón lesmálsorð í textum úr ýmsum áttum. Stefnt er að því að gefa út nýja útgáfu málheildarinnar árlega, þar sem fleiri textum hefur verið bætt við og hún mörkuð og lemmuð með nýjustu aðferðum.

Heimildir

Anna Björk Nikulásdóttir, Jón Guðnason og Steinþór Steingrímsson. 2017. Máltækni fyrir íslensku 2018–2022: verkáætlun. Reykjavík: Mennta- og menningarmálaráðuneytið.

Birkenes, Magnus B., Lars G. Johnsen, Arne M. Lindstad og Johanne Ostad. 2015. From digital library to n-grams: NB N-gram. Í: Proceedings of the 20th Nordic Conference of Computational Linguistics (NODALIDA-2015), NEALT Proceedings Series Vol. 23, bls. 293–295. Vilníus.

Borin, Lars, Markus Forsberg og Johan Roxendal. 2012. Korp – the corpus infrastructure of Språkbanken. Í: Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012), bls. 474–478. Istanbúl.

Hrafn Loftsson og Eiríkur Rögnvaldsson. 2007. IceNLP: A Natural Language Processing Toolkit for Icelandic. Í: Proceedings of Interspeech 2007, bls. 1533–1536. Antwerpen.

Hrafn Loftsson og Robert Östling. 2013. Tagging a Morphologically Complex Language Using an Averaged Perceptron Tagger: The Case of Icelandic. Í: Stephan Oepen, Kristin Hagen og Janne Bondi Johannessen (ritstj.). Proceedings of the 19th Nordic Conference of Computational Linguistics(NoDaLiDa -2013), NEALT Proceeding Series 16, bls. 105–120. Oslo.

Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarnadóttir og Hrafn Loftsson. 2012. The Tagged Icelandic Corpus (MIM). Í: Proceedings of the SaLTMiL-AfLaT Workshop on “Language Technology for Normalisation of Less-Resourced Languages”, bls. 67–72. Istanbúl.

Steinþór Steingrímsson og Örvar Kárason. Handrit. Augmenting a BiLSTMtagger with a Morphological Lexicon and a Seminal Lexical Category Identification Step.

TEI P5: Guidelines. 3.2.0. Síðast uppfært 10. júlí 2017. https://tei-c.org/guidelines/p5/ (apríl 2019).

Útgáfudagur
2019-08-15
Tegund
Málfregnir