Andmeteaduse kaasprofessor Radwa El Shawi soovib oma teadustöös masinõpet demokratiseerida – teha nii, et masinõpe oleks kõigile kättesaadav, seletatav ja inimeste vajadustega arvestav. Teda küsitles arvutiteaduse instituudi juhataja professor Jaak Vilo.
Kuidas sa teadustöö juurde ja Eestisse jõudsid?
Minu teekond teaduse juurde algas huvist selle vastu, kuidas andmetest saavad teadmised. Doktorantuuri ajal Sydney Ülikoolis uurisin geomeetrilisi võrgustikke ja algoritme. See õpetas mind mõtlema süsteemselt selle üle, kuidas õigupoolest info liigub. Aja jooksul kasvas sellest uudishimust välja mu teadustöö keskne küsimus: kuidas teha nii, et masinõpe oleks kõigile kättesaadav, seletatav ja tõeliselt inimese vajadustest lähtuv?
Eesti tundus selleks uurimistööks õige koht. Tartu Ülikoolis ollakse uuenduste suhtes avatud, siin on tugev digitaristu ja koostööd soosiv keskkond, kus algoritmialasel teadustööl ja ühiskondlikul mõjul on loomulik seos. Tulin arvutiteaduse instituuti 2018. aastal ja sellest ajast saati on Tartu olnud minu akadeemiline kodu.
Kirjelda oma praegust uurimisrühma.
Minu juhitav suurandmete uurimisrühm arendab üldiseid meetodeid ja alussüsteeme, mis võimaldaks muuta masinõppe praktiliseks, päris probleemide jaoks sobivaks valmislahenduseks. Meie uurimistöös on ühendatud automatiseeritud mudeliarendus, seletatav tehisintellekt ja skaleeritavad masinõppesüsteemid. Eesmärk on kombineerida neid komponente nii, et need töötaksid rakendustes usaldusväärselt.
Uurime, kuidas automatiseerida masinõppe töövooge otsast lõpuni, et kogu modelleerimisprotsess võiks toimuda minimaalse käsitsi sekkumisega, aga samal ajal oleks süsteem töökindel ka hajusatel andmeplatvormidel, kus andmetega töötamist piiravad ranged privaatsusnõuded või napp arvutusressurss. Tänu koostööprojektidele tervishoiu ja põllumajanduse valdkonnas saame töötada keerukate andmestike ja praktiliste vajadustega. Selline lõimimine võimaldab meil näha masinõpet mitte ainult algoritmilise küsimusena, vaid tervikliku süsteemina, mis peab olema tõlgendatav, korratav ja päris elus rakendatav.
Kui keeruline või lihtne on oma uurimisrühma moodustada?
Kõige olulisem on leida tugevad teadlased, kellel on sügavad tehnilised teadmised ja tahe töötada keerukate valdkondadevaheliste uurimisteemadega. Konkurents talentide pärast on äärmiselt tihe ning hea meeskonna loomine nõuab pingutust. Pikaajaliste projektide jätkumine sõltub aga ka konkurentsivõimelise rahastuse saamisest, tulemuslikust koostööst valdkonna ekspertidega, üliõpilaste uurimissuundadest ja tugistruktuuri olemasolust.
Kuidas sa kirjeldaksid oma rühma peamist uurimissuunda?
Meie uurimistöö peamine siht on muuta masinõpe usaldusväärseks ja kasulikuks inimestele, kes ei ole masinõppe eksperdid. Sellest tulenevad kolm omavahel seotud uurimissuunda: mudelite arenduse automatiseerimine, inimesele kergesti mõistetavate selgituste kujundamine ja ML-i skaleerimine, arvestades elulisi piiranguid nagu privaatsuse kaitse ja arvutusressursi nappus. Need suunad toetavad ja täiendavad üksteist. See tsükkel – automatiseerimine, selgitamine, mastabeerimine – on läbiv kõigis meie uurimisvaldkondades.
Ma tean, et sinu uurimistööl on põnevaid tulemusi ja selle põhjal on teenuseid juba välja töötatud. Räägi palun mõnest.
Jah, üks mõjukamaid süsteeme, mis on välja töötatud minu uurimistöö toel, on sündinud koostöös USA-s asuva Houston Methodist DeBakey südame-veresoonkonnahaiguste keskusega.
Arstid vajasid raviotsuste tegemise toetuseks lahendust, mis ennustaks patsientide ravitulemusi täpselt, aga ka nii, et arutluskäik oleks näha. Kuigi olemasolevate masinõppemudelite prognoosimisjõudlus oli suur, olid nende selgitused liiga abstraktsed, et olla kliinilises töös kasulikud. Selle lünga täitmiseks töötasime välja mõistepõhise selgitusraamistiku, mis seob mudeli otsused meditsiiniliselt arusaadavate mõistetega, mitte toorandmetega. See süsteem võimaldab arstidel mudeli arutluskäiku üle vaadata ja täpsustada, ning nii tekib tagasisideahel, kus kliinilised teadmised mõjutavad otseselt mudeli ennustusi. Tulemuseks oli väga täpne süsteem, mis on samal ajal kooskõlas ka arstiteaduse arusaamadega.
Selle süsteemi edu on mõjutanud suuresti meie hilisemat uurimistööd. Kogemused, mille me saime kliinilises töös tõlgendatava mudeli loomisel, kuluvad marjaks ära ka töös teistes valdkondades, sealhulgas põllumajanduses.
Kust sinu teadustöö tulemuste kohta lugeda saab?
Meie tööst saab lugeda suurandmete uurimisrühma veebilehelt. Avatud lähtekoodiga tööriistad ja prototüübid on GitHubi platvormil ning minu publikatsioonid ja teadustöö tulemused on loetletud ka ETIS-es.
Kuidas sa seod uurimistööd õppetööga ja äratad üliõpilaste huvi masinõppe vastu?
Oma uurimistöö seon õppetööga väga otseselt andmeteaduse õppekava aines „Seletatav automatiseeritud masinõpe“, mis annab üliõpilastele praktilise kogemuse masinõppe andmekonveierite automatiseerimise, selgitus- ja hindamismeetoditega. Kasutame päris andmestikke ja meie rühma arendatud tööriistu. Üliõpilased puutuvad varakult kokku veel lahendamata uurimisküsimustega, mis sageli inspireerivad neid valima lõputöö teemat või uurimisprojekte.
Kaasan üliõpilasi ja uusi liikmeid oma rühma uurimistöösse aktiivselt kohe algusest peale. Nad saavad töötada päris projektidega, proovida tööriistu ja uurida küsimusi, millele vastuseid veel ei ole. Ise protsessis osaledes näevad nad, kuidas teadustöö käib, ja see aitab neil oma teed valida.
Mida sa veel oma töö kohta sooviksid öelda?
Kui peaksin välja ütlema üheainsa mõtte, mis minu tööd iseloomustab, siis see on, et masinõpe peab inimlikku arusaamist teenima, mitte seda asendama. Täpsus on oluline, aga sama tähtsad on arusaadavus ja läbipaistvus, hea kasutatavus ja ühiskonna usaldus. Igaüks, kes seda seisukohta jagab, olgu tudeng või koostööpartner, on alati teretulnud meiega liituma ja asja edasi uurima.