Jüri Toomepuu: tehisaru mudelid valdavad eesti keelt ja tunnevad Eesti kultuuriruumi (2)
Eestlased USAs | 15 Feb 2025  | Jüri ToomepuuEWR
 - pics/2025/02/61512_001_t.webp
Tehisintellekti areng on üks viimaste aastakümnete kiireimaid ja ulatuslikumaid tehnoloogilisi murranguid. ChatGPT ja teised suured keelemudelid on tõestanud, et nad pole umbkeelsed, nad suudavad töötada erinevates, sealhulgas eesti keeles.

Tehisaru ja Eesti keele väljakutsed

Hiljuti on Eesti teadlased ja tehnoloogiaeksperdid esitanud ühispöördumise, milles rõhutatakse vajadust tagada eesti keele kestlikkus tehisaru ajastul. Kui tehisaru mudelid ei mõista eesti keelt ja kultuuri, nihkub Eesti paratamatult ingliskeelsesse infovälja. See ei ole pelgalt tehniline probleem, vaid mõjutab otseselt eesti keele ja kultuuri püsimajäämist.

Tallinna Tehnikaülikooli professor Tanel Tammet on rõhutanud, et kuna Eesti teadlased on küll oma kitsastes valdkondades maailmatasemel, ei ole meil piisavalt ressursse omakeelse laiatarbe-tehisaru loomiseks. Seetõttu on koostöö rahvusvaheliste tehnoloogiahiidudega vältimatu. Tammet toob välja, et tehisaru vajab treenimiseks suures koguses eestikeelset materjali, mida peab olema võimalik jagada vastutustundlikul viisil.

Tehisaru areng nõuab tohutuid ressursse – nii finantsilisi kui ka teaduslikke. Selliste mudelite treenimine maksab miljardeid dollareid ning on selge, et Eesti ei suuda oma ressursse arvestades arendada täiesti iseseisvalt samaväärseid lahendusi. Seetõttu on ChatGPT ja muud olemasolevad mudelid olulised vahendid eesti keele ja kultuuri edendamisel.

Samas on eesti keele eripärad – keeruline grammatika, väiksem kõnelejaskond ja piiratud tekstikorpus – väljakutseks ka kõige võimsamatele tehisintellekti mudelitele. Ilma piisava keelematerjalita ei saa mudelid eesti keeles täielikult kompetentseks. See aga toob kaasa ohu, et eestlased hakkavad suhtlema tehisaruga pigem inglise kui eesti keeles, mis viib kultuurilise nihkeni ingliskeelsesse keskkonda.

Advertisement / Reklaam
Advertisement / Reklaam
Kui vaadata aga kui hästi ChatGBT valdab eesti keelt ja tunneb eesti kultuuri, võib arvata, et muretsemiseks pole erilist põhjust. Tehisaru valdab eesti keelt ja tunneb eesti kultuuri enam-vähem sama hästi kui need kelle kirjutistega ta oli treenitud, kelle kirjutised on ta andmebaasis. Kui ma esitasin ChatGBT-le küsimuse eesti kirjanduse kohta sain järgmise vastuse: „Mul on üldteadmised eesti kirjanikest ja poliitikutest nagu Friedrich Reinhold Kreutzwald, Juhan Liiv, A. H. Tammsaare ja Marie Under, kuid mul puudub otsene ligipääs nende originaalteostele. Siiski võin kokku võtta nende kirjutised, arutada nende teemasid ja analüüsida nende kirjanduslikku või poliitilist tähtsust.“

Keelematerjalide jagamine ja intellektuaalomand

Hiljutine arutelu Meta ehk Facebooki emafirma ja Eesti meedia vahel näitab, et keelematerjalide jagamine suurte tehnoloogiaettevõtetega on ühiskonnas vastuoluline teema. Ühest küljest vajavad keelemudelid eestikeelset sisu, et areneda, kuid teisalt tekivad küsimused intellektuaalomandi, meediaettevõtete ärimudelite ja rahvusliku infokeskkonna kontrolli üle.

Liisa Pakosta sõnul peaks Eesti pakkuma oma keeleandmeid tingimuslikult – kindlate litsentsitingimustega, mis tagaks, et sisu ei kasutata ärilistel eesmärkidel ilma loata ning et mudelid osutaksid allikatele. See lähenemine võib aidata lahendada probleemi, kus eesti keelt mõistvad tehisaru mudelid muutuvad üha olulisemaks, kuid ei kahjusta kohaliku meedia ja kultuuri huve.

Islandi eeskuju ja võimalikud lahendused

Islandi valitsus on üks esimesi, kes otsustas aktiivselt panustada oma keele kestlikkusse tehisaru ajastul. Nad on arendanud spetsiaalseid programme, et tagada islandi keele toetus tehisintellektisüsteemides. Eesti võiks järgida sarnast mudelit, arendades koostöös teadus- ja IT-sektoriga suuremaid keelekorpusi, mida saaks kasutada keelemudelite treenimiseks vastutustundlikult ja läbipaistvalt.

Järeldused ja tulevikuväljavaated

Advertisement / Reklaam
Advertisement / Reklaam
Eesti on IT-riigina näidanud, et suudab olla teatud niššides maailma tipus. Siiski on selge, et laiaulatusliku ja kvaliteetse eestikeelse tehisaru loomine on kulukas ja keeruline. Seetõttu tuleb leida tasakaal rahvusvahelise koostöö ja riiklike algatuste vahel.

Tammet märgib, et kui eesti keelt valdavaid tehisaru mudeleid ei arendata piisavalt, muutub eesti keel ajapikku „köögikeeleks“ – keeleks, mida kasutatakse koduses suhtluses, kuid mitte töises ja avalikus ruumis. Selle vältimiseks tuleb keelekorpused avada vastutustundlikult ning tagada, et tehnoloogiahiidudega sõlmitud kokkulepped teeniksid Eesti huve.

ChatGPT ja teised suured keelemudelid valdavad eesti keelt ja tunnevad Eesti kultuuriruumi küllaltki hästi, kuid nende veelgi suurem võimekus sõltub eesti keele materjali kättesaadavusest. Maailm muutub ja muutuvad ja arenevad ka eesti keel ja Eesti kultuur. Kui soovime, et eesti keel ja kultuur püsiksid ka tulevikus elujõulisena, tuleb investeerida teadusuuringutesse, keeleressursside loomisse ja rahvusvahelisse koostöösse. Eesti peab tegema teadliku otsuse, kuidas suunata tehisaru arengut nii, et see toetaks eesti keele ja kultuuri püsimist läbi aegade.

 

Viimased kommentaarid

Kommentaarid on kirjutatud EWR lugejate poolt. Nende sisu ei pruugi ühtida EWR toimetuse seisukohtadega.
Ai, ai, ai, mis siis sai17 Feb 2025 07:07
Seni panevad ikka puuse tugevasti. Ja digi saast on lõpmatu neti avarustes. Näiteks fantaseerivad nad tugevasti Eesti kirjanduse ja luule pinnal. Ja kui Sa kursis ei ole võid lausa sula lollust levitada. Samas inglise -ameerika kultuuriruumis on nad rohkem usaldatavad, kuid ilma mitme kordse kontrollimiseta ei pääse siingi. Areng on nii kiire, et nende ridade kirjutamise aegu võivad asjad juba edenenud olla.
W.Johanson15 Feb 2025 21:29
Ja ka seda tasub kaaluda:
https://lexbahn.net/index.php/...

Loe kõiki kommentaare (2)

Eestlased USAs
Advertisement / Reklaam
Advertisement / Reklaam