Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Samstaða um varnarmál Pawel Bartoszek,Þórdís Kolbrún R. Gylfadóttir Skoðun Fordæmdu börnin Þráinn Farestveit Skoðun Frítt í Strætó fyrir börn og ungmenni - ólíkt hafast menn að Árni Rúnar Þorvaldsson Skoðun Ísland, landið sem á nú engan að Steinunn Ólína Þorsteinsdóttir Skoðun Sjálfstæðisflokkurinn vill 5 bílastæði á íbúð - sem getur kostað allt að 70 milljónir Dóra Björt Guðjónsdóttir Skoðun Átta mínútur sem stýra RÚV Daníel Rúnarsson Skoðun Búið að opna ESB pakkann: Sambandsríkið Evrópa og endalok íslensks fullveldis Eggert Sigurbergsson Skoðun Bensíni hellt á verðbólgubálið Björn Brynjúlfur Björnsson Skoðun Árás á almenningssamgöngur Hannes Pétursson Skoðun Eru eldri sviðslistakonur ekki velkomnar á svið? Rósa Guðný Þórsdóttir Skoðun Skoðun Skoðun Samstaða um varnarmál Pawel Bartoszek,Þórdís Kolbrún R. Gylfadóttir skrifar Skoðun Frítt í Strætó fyrir börn og ungmenni - ólíkt hafast menn að Árni Rúnar Þorvaldsson skrifar Skoðun Fordæmdu börnin Þráinn Farestveit skrifar Skoðun Íslensk lög sniðin að þörfum norsku laxeldisrisanna Magnús Guðmundsson skrifar Skoðun Fossvogur án íþrótta – afleiðingar Fossvogsbrúar Baldvin Björgvinsson skrifar Skoðun X - Orri Ragnar Sigurðsson skrifar Skoðun Viltu nýja brú eða nýtt hné? Ódýrt lýðskrum gegn loftslagsaðgerðum Sveinn Atli Gunnarsson skrifar Skoðun Skólamál og ábyrgð í opinberri umræðu Sandra Sigurðardóttir skrifar Skoðun Ísland, landið sem á nú engan að Steinunn Ólína Þorsteinsdóttir skrifar Skoðun Barnamenningarhús – menning, sköpun, tengsl og geðheilbrigðisforvarnir frá upphafi Ellen Calmon skrifar Skoðun Búið að opna ESB pakkann: Sambandsríkið Evrópa og endalok íslensks fullveldis Eggert Sigurbergsson skrifar Skoðun Árás á almenningssamgöngur Hannes Pétursson skrifar Skoðun Reykjavík – norræn, en samt ekki ,,skandinavísk“ Gunnar Einarsson skrifar Skoðun Símalausir grunnskólar í Kópavogi Ásdís Kristjánsdóttir skrifar Skoðun Efling þekkingar í sjávarútvegi skilar árangri Þorgerður Katrín Gunnarsdóttir skrifar Skoðun Óvarin í umferðinni Hrefna Sigurjónsdóttir skrifar Skoðun Alþjóðlegur dagur krabbameins - Heildræn endurhæfing Ljóssins Guðný Katrín Einarsdóttir,Erla Ólafsdóttir,Þórhildur Sveinsdóttir,Stefán Diego skrifar Skoðun Hagvöxtur, en fyrir hvern? — Svar við vaxandi hagsældartali án efnahagslegrar sjálfbærni Björgvin Sævarsson skrifar Skoðun Innviðir grunnskólanna í forgang í Kópavogi María Ellen Steingrímsdóttir skrifar Skoðun Hvernig verður Akureyri svæðisborg? Sindri S. Kristjánsson skrifar Skoðun Fengu engar varanlegar undanþágur Hjörtur J. Guðmundsson skrifar Skoðun Sjálfstæðisflokkurinn vill 5 bílastæði á íbúð - sem getur kostað allt að 70 milljónir Dóra Björt Guðjónsdóttir skrifar Skoðun Samfélagsósómi bankanna Guðmundur Ingi Þóroddsson skrifar Skoðun Um samgöngur, auðlindagjald, innviði og nýlendur Þórhallur Borgarsson skrifar Skoðun Eru eldri sviðslistakonur ekki velkomnar á svið? Rósa Guðný Þórsdóttir skrifar Skoðun Átta mínútur sem stýra RÚV Daníel Rúnarsson skrifar Skoðun Verjum meiri skjátíma með börnunum Eva Pandora Baldursdóttir skrifar Skoðun Holtavörðuheiðarlína 3 – hæpin ákvarðanataka og ófullkomið samráð Friðrik Már Sigurðsson skrifar Skoðun Vörn snúið í sókn í menntamálum Kolbrún Áslaugar Baldursdóttir skrifar Skoðun Aukin samkeppni á bankamarkaði Kristján Þórður Snæbjarnarson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Sjálfstæðisflokkurinn vill 5 bílastæði á íbúð - sem getur kostað allt að 70 milljónir Dóra Björt Guðjónsdóttir Skoðun
Búið að opna ESB pakkann: Sambandsríkið Evrópa og endalok íslensks fullveldis Eggert Sigurbergsson Skoðun
Skoðun Viltu nýja brú eða nýtt hné? Ódýrt lýðskrum gegn loftslagsaðgerðum Sveinn Atli Gunnarsson skrifar
Skoðun Barnamenningarhús – menning, sköpun, tengsl og geðheilbrigðisforvarnir frá upphafi Ellen Calmon skrifar
Skoðun Búið að opna ESB pakkann: Sambandsríkið Evrópa og endalok íslensks fullveldis Eggert Sigurbergsson skrifar
Skoðun Alþjóðlegur dagur krabbameins - Heildræn endurhæfing Ljóssins Guðný Katrín Einarsdóttir,Erla Ólafsdóttir,Þórhildur Sveinsdóttir,Stefán Diego skrifar
Skoðun Hagvöxtur, en fyrir hvern? — Svar við vaxandi hagsældartali án efnahagslegrar sjálfbærni Björgvin Sævarsson skrifar
Skoðun Sjálfstæðisflokkurinn vill 5 bílastæði á íbúð - sem getur kostað allt að 70 milljónir Dóra Björt Guðjónsdóttir skrifar
Skoðun Holtavörðuheiðarlína 3 – hæpin ákvarðanataka og ófullkomið samráð Friðrik Már Sigurðsson skrifar
Sjálfstæðisflokkurinn vill 5 bílastæði á íbúð - sem getur kostað allt að 70 milljónir Dóra Björt Guðjónsdóttir Skoðun
Búið að opna ESB pakkann: Sambandsríkið Evrópa og endalok íslensks fullveldis Eggert Sigurbergsson Skoðun