Tölvutækur merkingarbrunnur fyrir íslenska máltækni

Grunnur lagður að því að tölvur skilji merkingu í íslenskum textum

  • Anna B. Nikulásdóttir Háskóli Íslands
merkingarbrunnur, orðanet, máltækni, merkingarvensl, merkingarupplýsingar

Útdráttur

Í þessari grein er fjallað um tölvutækan gagnagrunn með merkingarupplýsingum orða fyrir íslenska máltækni. Gagnagrunnurinn Íslenskur merkingarbrunnur er unnin með sjálfvirkum aðferðum, sem vinna merkingarupplýsingar úr stóru textasafni. Notaðar eru aðferðir sem byggjast á mynsturgreiningu og tölfræði sem og blandaðar aðferðir. Gagnagrunnurinn inniheldur nú um 134 þúsund orð, fyrst og fremst nafnorð, og vel á aðra milljón merkingarvensla. Síðasta verkþættinum í þróun gagnagrunnsins fyrir fyrstu útgáfu er þó enn ólokið og gætu þessar tölur því breyst. Niðurstöður mismunandi aðferða til greiningar merkingarvensla verða bornar saman og þær nýttar til þess að styðja eða hrekja einstök vensl.

Formgerð merkingarbrunnsins er ekki sambærileg við hefðbundin orðanet eins og Princeton WordNet fyrir ensku (http://www.princeton.edu/wordnet), sem byggist fyrst og fremst á yfirheitastigveldum. Merkingarbrunnurinn inniheldur svokallaðar þyrpingar af merkingarlega tengdum orðum, hefðbundin merkingarvensl sem og vensl sem lýsa almennri þekkingu og hugmyndatengslum.

Fyrsta útgáfa merkingarbrunnsins var tilbúin við upphaf ársins 2012 og er hún öllum aðgengileg.

 

Heimildir

Anna B. Nikulásdóttir. 2007. Sjálfvirk greining merkingarvensla í Íslenskri orðabók. Orð og tunga 9: 5–24.

Baroni, Marco, Brian Murphy, Eduard Barbu & Massimo Poesio. 2010. Strudel: A Corpus-Based Semantic Model Based on Properties and Types. Cognitive Science 34: 222–254.

BÍN = Beygingarlýsing íslensks nútímamáls. http://bin.arnastofnun.is. (30. júní 2011)

Bullinaria, John A. 2008. Semantic Categorization Using Simple Word Co- occurrence Statistics. Í: M. Baroni, S. Evert & A. Lenci (útg.). Proceedings of the ESSLLI Workshop on Distributional Lexical Semantics, bls. 1–8. Hamburg, Þýskalandi.

Cederberg, Scott & Dominic Widdows. 2003. Using LSA and Noun Co- ordination Information to Improve the Precision and Recall of Automatic Hyponymy Extraction. Í: Proceedings of the International Conference on Natural Language Learning (CoNLL), bls. 111–118. Edmonton, Kanada.

Cleuziou, Guillaume, Lionel Martin & Christel Vrain. 2004. PoBOC: an Overlapping Clustering Algorithm. Application to Rule-Based Classication and Textual Data. Í: Proceedings of the 16th European Conference on Artificial Intelligence, bls. 440–444. Valencia, Spáni.

ConceptNet. http://csc.media.mit.edu/conceptnet. (30.06.2011)

Erla Hallsteinsdóttir, Thomas Eckart, Chris Biemann, Uwe Quasthoff & Matthias Richter. 2007. Íslenskur orðasjóður – Building a Large Icelandic Corpus. Í: Joakim Nivre, Heiki-Jaan Kaalep & Kadri Muischnek (útg.).
Proceedings of NODALIDA-07, bls. 288–291. Tartu, Eistlandi.

Fellbaum, Christiane (útg.). 1998. WordNet. An Electronic Lexical Database. Cambridge Mass., London: MIT Press.

Fernández-Montraveta, Ana, Gloria Vázquez & Christiane Fellbaum. 2008.
The Spanish Version of WordNet 3.0. Í: A. Storrer, A. Geyken, A. Siebert & K.M. Würzner (útg.). Text Resources and Lexical Knowledge, bls. 175–182. Berlin, New York: Mouton de Gruyter.

Girju, Roxana & Adriana Badulescu. 2006. Automatic Discovery of Part-Whole Relations. Computational Linguistics 32(1): 83–134.

Havasi, Catherine, Robert Speer & Jason B. Alonso. 2007. ConceptNet 3: a Flexible, Multilingual Semantic Network for Common Sense Knowledge. Í: Proceedings of Recent Advances in Natural Language Processing. Borovets, Búlgaríu.

Hearst, Marti A. 1992. Automatic Acquisition of Hyponyms from Large Text Corpora. Í: Proceedings of COLING-92, bls. 539–545. Nantes, Frakklandi.

Hrafn Loftsson. 2008. Tagging Icelandic Text: A Linguistic Rule-Based Approach. Nordic Journal of Linguistics 31(1): 47–72.

Hrafn Loftsson & Eiríkur Rögnvaldsson. 2007. Ice-Parser: An Incremental Finite-State Parser for Icelandic. Í: Joakim Nivre, Heiki-Jaan Kaalep & Kadri Muischnek (útg.). Proceedings of NODALIDA-07, bls. 128–135. Tartu, Eistlandi.

IceNLP. http:// icenlp.sourceforge.net. (30.06.2011)

Íslenskt orðanet. http://www.ordanet.is. (30.06.2011)

Jón Hilmar Jónsson. 2012. Að fanga orðaforðann: orðanet í þágu orðabókar.
(Þetta hefti).

Jörgen Pind (ritstj.), Friðrik Magnússon og Stefán Briem. 1991. Íslensk orðtíðnibók. Reykjavík: Orðabók Háskólans.

Lindén, Krister & Lauri Carlson. 2010. FinnWordNet – WordNet på finska via
översättning. LexicoNordica – Nordic Journal of Lexicography, 17: 119–140.

Manning, Christopher & Hinrich Schütze. 1999. Foundations of Statistical
Natural Language Processing.
Cambridge Mass., London: MIT Press.

Pantel, Patrick & Dekang Lin. 2002. Discovering Word Senses From Text. Í: Proceedings of ACM Conference on Knowledge Discovery and Data Mining (KDD-02), bls. 613–619. Edmonton, Kanada.

Pedersen, Bolette Sandford, Sanni Nimb, Jörg Asmussen, Nicolai Hartvig
Sörensen, Lars Trap-Jensen & Henrik Lorentzen. 2009. DanNet: the Challenge of Compiling a Wordnet for Danish by Reusing a Monolingual Dictionary. Language Resources and Evaluation, 43: 269–299.

Ruiz-Casado, Maria, Enrique Alfonseca & Pablo Castells. 2005. Automatic Extraction of Semantic Relationships for WordNet by means of Pattern Learning from Wikipedia. Í: A. M. R. Munos & E. Métais (útg.). Proceedings of the 10th International Conference on Applications of Natural Language to Information Systems (NLDB 2005), bls. 67–79. Alicante, Spáni. Volume 3513 of Lecture Notes in Computer Science, Heidelberg: Springer.

Sahlgren, Magnus. 2006. The Word-Space Model. Using Distributional Analysis to Represent Syntagmatic and Paradigmatic Relations between Words in High-Dimensional Vector Spaces. Doktorsritgerð. Háskólinn í Stokkhólmi. Sjá heimasíðu M. Sahlgren: http://www.sics.se/~mange/publications.html. (20.10.2011).

Schütze, Hinrich. 1993. Word Space. Í: S. J. Hanson, J. D. Cowan & C. L. Giles (útg.). Advances in Neural Information Processing Systems, 5, bls. 895–902. San Mateo, Kaliforníu: Morgan Kaufmann.

Sigrún Helgadóttir. 2004. Mörkuð íslensk málheild. Í: Samspil tungu og tækni, bls. 65–71. Reykjavík: Menntamálaráðuneytið.

Snara. http://snara.is. (30.06.2011)

Whelpton, Matthew. 2012. From human-oriented dictionaries to computer-
oriented lexical resources – trying to pin down words. (Þetta hefti).

WordNet. http://www.princeton.edu/wordnet/. (20.10.2011)
Útgáfudagur
2020-07-16
Tegund
Ritrýndar greinar