Tartu Ülikooli arvutiteaduse instituudi eestvedamisel hakatakse treenima vabavaralisi keelemudeleid kõnelema senisest ladusamat eesti keelt ja mõistma paremini eesti kultuuri, et hoida ja kaitsta tehisintellekti kiire arengu tingimustes eesti keelt ning luua eestlaste jaoks hõlpsasti kasutatavaid rakendusi.
Suuri keelemudeleid kasutavate vestlusrobotite, sisukokkuvõtjate, küsimus-vastus-süsteemide ja muude taoliste rakenduste kvaliteetseks toimimiseks on vaja, et mudelid oskaksid hästi eesti keelt. Tartu Ülikooli keeletehnoloogia kaasprofessor Kairit Sirts nendib, et tehisintellekti eesti keel kõlab tihti kunstliku ja puisena. „Mõned vabavaralised keelemudelid juba oskavad teatud määral eesti keelt, kuid meie soov on panna keelemudel kõnelema nii, nagu inimesed tegelikult räägivad. Ilukõne asemel on eestlastele pigem omane konkreetsus ja lakoonilisus. Saame treenida mudelit Eesti kultuurikonteksti arvesse võtma ja ka grammatikas paremaks saama,“ lausus Kairit Sirts.
Suurte tehnoloogiaettevõtete loodud keelemudelid on suunatud massidele ja nende üle puudub meil igasugune kontroll. Nii ei saa näiteks OpenAI ChatGPT-d kasutada konfidentsiaalsust nõudvates valdkondades, nagu riigikaitse või tervishoid. Nüüd arendavad Eesti teadlased ise vabavaralisi keelemudeleid edasi, et tulevikus oleks võimalik luua eesti keelt oskavaid ja konteksti mõistvaid turvalisi ja kvaliteetseid tehisintellektirakendusi.
Kaasprofessor Kairit Sirtsu sõnul on oluline hoida ja kasvatada meie teadlaskonnas suurte keelemudelite alast kompetentsi. „Tehnoloogiaettevõtete jaoks ei ole eesti keele käekäik ega kultuuritaust tähtis, seega peame ise nende asjade eest hea seisma. Tänu uuele projektile saame täiendada ka inimeste oskusi ja teadmisi, et mitte jääda tehnoloogilise arengu juures pelgalt kõrvaltvaatajaks,“ sõnas ta.
Alanud projektis „Eesti keele toetus suurtes generatiivsetes vabavaralistes keelemudelites“ saavad kokku selle valdkonna tipud Eestis. Tartu Ülikoolist osaleb lisaks Kairit Sirtsule ka keeletehnoloogia professor Mark Fišel koos üliõpilastega. Tallinna Tehnikaülikoolist lööb kaasa kõnetehnoloogia kaasprofessor Tanel Alumäe koos tudengitega ja Eesti Keele Instituudist juhib tööd keeletehnoloog Eleri Aedmaa.
Projekti rahastatakse riiklikust programmist „Eesti keeletehnoloogia 2018–2027“. Keelemudeleid hakatakse treenima Soomes asuvas Põhja-Euroopa võimsaimas superarvutis LUMI. Projekt vältab praeguse plaani kohaselt kaks aastat. Esimeste tulemusteni eesti keelele kohandatud mudelitega on kavandatud jõuda 2025. aasta juuniks.