Kaur Alasoo: teadusavastused sünnivad koostööd tehes ja andmeid jagades

Kaur Alasoo kõneleb Geenifoorumil
Autor: Tartu Ülikooli arvutiteaduse instituut

Tartu Ülikooli arvutiteaduse instituudi bioinformaatika kaasprofessor Kaur Alasoo on oma uurimistöös ühendanud informaatika ja molekulaarbioloogia, et leida uusi võimalusi geneetiliste variantide mõju ennustamiseks ja õppida paremini mõistma harvikhaigusi. Teda usutles andmeteaduse õppetooli juhataja professor Jaak Vilo.

Mis sind esmakordselt geneetika ja molekulaarbioloogia vastu huvi tundma pani?

Esimene huvi tekkis gümnaasiumis. Olen alati olnud pigem tehnika- ja arvutihuviline, roheline bioloogia ei ole mind eriti paelunud – endiselt ei tunne ma eriti taime- ja loomaliike. Samas mäletan, kuidas mind 10.–11. klassis köitis molekulaarbioloogia ja geneetika osa: selged ja konkreetsed reeglid, kuidas tehakse rakkudes DNA põhjal RNA-d ja sellest valku, kuidas toimib pärilikkus jne. Gümnaasiumi lõpus puutusin ühel üritusel kokku Hedi Petersoniga, kes oli tollal arvutiteaduse instituudis bioinformaatika doktorant ja kes praegu on bioinformaatika professor. Kui samal sügisel Tartu Ülikooli informaatikat õppima astusin, siis oli just tema see, kes kutsus mind bioinformaatika töörühma tegemistega tutvuma ja pakkus välja ka esimese projekti. Tol ajal ei osanud ma isegi programmeerida. Üks asi viis teiseni ja nii ma bioinformaatikasse jäin. Tugev informaatika- ja masinõppetaust Tartu Ülikooli bakalaureuseõppest on mulle hiljem väga kasuks tulnud.

Oled töötanud välismaal mitmes tunnustatud teadusasutuses: Wellcome Trust Sangeri Instituudis, Euroopa Molekulaarbioloogia Laboris Heidelbergis, Aalto Ülikoolis. Kuidas on need erinevad teaduskeskkonnad kujundanud sinu teaduslikku mõtteviisi ja lähenemist uurimistööle?

Teaduse tegemiseks ei ole üht ja õiget mustrit. Igas ülikoolis, instituudis ja laboris tehakse asju natuke teistmoodi. See erinevus ongi vast kõige suurem ühe teadusrühma ja labori tasemel. Bioloogias ja reaalteadustes on üsna selged reeglid selle kohta, milline on usaldusväärne teadus ja kuidas sellest peaks kirjutama, aga palju suuremad erinevused on just teaduse nähtamatus pooles, mida me nimetame omakeskis ööteaduseks (ingl night science). Kust üldse tulevad küsimused, mida uurida? Milliste küsimuste uurimiseks on mõtet aega kulutada ja milliste jaoks mitte? Millal peaks suunda muutma ja midagi uut katsetama? Millisel hetkel ei ole andmed enam lihtsalt andmed ja tekib päris mõistmine? Kuidas aru saada, et suurest soovist midagi avastada ma tegelikult ennast ei lollita? Siin ei ole üheseid õigeid vastuseid. Endale sobiva teaduse tegemise stiili leidmiseks on väga kasulik suhelda ja koos töötada erinevate inimestega. Lõpuks peab iga teadlane leidma oma tee, aga see on oluliselt lihtsam, kui on olemas eeskujud, kellelt õppida.

Mida tähendab sulle see, et sind valiti uuesti Eesti Noorte Teaduste Akadeemia juhatusse, ja milliseid eesmärke soovid seal sel korral täide viia?

Tahaks tähelepanu juhtida teaduse tegemise, konverentsidel käimise ja lapsevanemaks olemise paremale ühildamisele. Rahvusvahelistel konverentsidel osalemine on noorte teadlaste, sh doktorantide töö ülioluline osa, mis võimaldab neil oma teadustööd tutvustada, tagasisidet saada ja uusi kontakte luua. Noortele lastevanematele võib aga konverentsidel käimine olla väga kulukas, eriti kui näiteks oleks vaja rinnalaps koos hoidja või elukaaslasega kaasa võtta. Me tahaksime välja töötada stipendiumi, mis sellises olukorras noorteadlasi toetaks, aga eks näis, kas õnnestub ka rahastus leida. Suurbritannias on sellised meetmed üsna levinud – nii Bristoli kui ka Cambridge’i ülikoolil on oma programm, et toetada teadustööle naasvaid lapsevanemaid.

Milliseks sa hindad molekulaarsete andmestike ja masinõppe kombinatsiooni potentsiaali meditsiinis?

Väga suureks. Mind huvitab, mida teevad geneetilised erinevused inimeste vahel. Aga inimese genoom on kolm miljardit tähemärki pikk ja igal positsioonil võib olla kuni neli erinevat väärtust. Me ei suuda mitte kunagi kõiki võimalikke geneetilisi variante ja nende kombinatsioone mõõta. Ja isegi kui see oleks võimalik, siis oleks tegemist lihtsalt ühe suure „margikoguga“. Parim kinnitus, et me saame millestki bioloogias aru, on see, kui suudame seda ennustada. Just selles osas – masinõppe rakendamisel alusbioloogias – on viimastel aastatel toimunud väga suured edusammud.

Kuigi viimasel ajal on saanud palju tähelepanu suured keelemudelid nagu ChatGPT, siis arvan, et kõige suuremad võidud tulevad palju konkreetsemate bioloogiliste probleemide lahendamisele keskendunud mudelitest. Hea näide on Google’i AlphaFold, mis oli tohutu samm valkude struktuuri ennustamisel. Nüüd on Google sellest edasi arendanud AlphaMissense’i mudeli, mis suudab üsna hästi ennustada geneetiliste variantide mõju valkude funktsioonile. Sealjuures ei ole Google kaugeltki ainuke mängija – neid on palju, sh akadeemilises teaduses. Nendel uutel mudelitel on tohutu rakenduslik potentsiaal näiteks harvikhaiguste diagnostikas.

Oled sa viimase viie aasta jooksul täheldanud edusamme teadmistes selle kohta, kuidas ja miks on mingi kindel geenivariant seotud konkreetse haigusega?

Jah, neid on väga palju, ka meie enda töös on mitmeid näiteid. Ma arvan, et kõige suuremad võidud tulevad praegu „igavatest“ lahendustest. On terve hulk selliseid küsimusi, millele me veel vastust ei tea, aga me teame üsna täpselt, mida peaks tegema, et see vastus leida. Meil on vaja koguda suuremaid ja täpsema resolutsiooniga andmestikke ning neid paremini omavahel kokku viia, samuti luua tööriistu, mis võimaldaks nende andmete pealt kiiresti ja mugavalt päringuid teha.

Meie ise arvutiteaduse instituudis bioloogilisi mõõtmisi ei tee, aga seda enam on meil võimalik kaasa aidata olemasolevate andmestike omavahelisele sidumisele. Näiteks ilmus just ajakirjas Nature Communications artikkel, kus meil õnnestus näidata, mida üks konkreetne autoimmuunhaiguse luupuse riski suurendav geenivariant inimese immuunrakkudes teeb. Kõik selles artiklis kasutatud andmed olid juba varem avaldatud, aga keegi ei olnud neid seni kokku pannud, sest see nõudis lihtsalt nii palju tööd ja vaeva.

Analoogia põhjal võiks öelda, et see, mida me teeme, on nagu Google Mapsi ehitamine. Erinevad andmekihid – kus asuvad tänavad, rattateed, hooned, kohvikud, toidupoed jne – on kõik kuskil olemas, aga et neid oleks mugav kasutada, on vaja need ühte kohta kokku panna. Kujutage ette näiteks, et tahate sõita jalgrattaga Tartus Toome kohvikust Delta keskuse juurde, aga peate selleks kõigepealt kohviku kodulehelt üles otsima tema aadressi, seejärel ülikooli kodulehelt Delta aadressi ja siis paberkaardi pealt uurima, kuidas punktist A punkti B jõuda. Geeniandmetega tihti just nii ongi – andmekihid on eri andmekogudes laiali, mis muudab teadlasi huvitavate küsimuste küsimise tülikaks. Meie eesmärk on seda tülikust võimalikult palju vähendada.

Milliseid rahvusvahelise koostöö võimalusi näed Eesti teadlaste jaoks?

Inimesegeneetikas on teadus ülimalt rahvusvaheline ja tihti on ka projektides palju koostööpartnereid. Näiteks meie viimasel artiklil oli 20 kaasautorit seitsmest riigist ja nad kõik andsid oma sisulise panuse andmete analüüsi või tulemuste tõlgendamisse. Tuleb lihtsalt õiged partnerid üles leida, ja selleks on olulised just rahvusvahelised konverentsid, nagu eespool mainisin.

Millised on olnud sinu jaoks kõige väärtuslikumad teaduskoostöö kogemused?

Arvan, et see viimane Nature Communicationsi artikkel ongi üks parimaid näiteid. Mul on selgelt meeles see Zoomi koosolek, kus vaatasime pärast andmeanalüüsi järjekordset uuendamist viimaseid tulemusi üle. Meil oli üks kandidaatseos, mida ma olin ise juba mitu korda vaadanud, aga ei olnud midagi huvitavat leidnud. Olin juba peaaegu loobunud, aga teised koosolekul osalejad arvasid, et võiksime ikkagi leitud geneetilised variandid uuesti üle vaadata, ja siis nägimegi seost USP18 geenivariandi ja luupuse vahel. Artikli kirjutamine ja lisaanalüüs võtsid veel umbes kuus kuud aega, aga sellest hetkest oli peamine suund paigas.

Milline teadustöö või -projekt on sulle endale seni kõige tähenduslikum olnud?

Meie loodud andmebaas eQTL Catalogue. Näeme, et seda kasutavad väga paljud teadlased. Teaduskirjanduses on sel juba üle 400 viitamise, aga palju on ka farmaatsiafirmades sellised kasutusjuhte, mis mõjutavad küll ravimiarendusotsuseid, aga ei vii tingimata uute teadusartikliteni.

Kuidas toetad oma juhendatavaid teadlasi nende karjääri alguses ja milliseid oskusi pead oluliseks noortele teadlastele edasi anda?

Kõige olulisemad oskused on need, mida on kõige raskem edasi anda. Kuidas küsida häid küsimusi? Kuidas ennast mitte petta? Kuidas saavad üksikutest avastuskillukestest sidusad lood ja kuidas neid kirja panna? Ma loodan neid oskusi ja väärtusi edasi anda juhendatavatega kohtudes, nende teadustöö üle arutledes ja koos artikleid kirjutades, aga kui hästi see välja tuleb, peaks ilmselt nende endi käest küsima.

Kui peaks nimetama ühe tähtsama asja, siis see oleks kirjutamine. See nõuab väga palju harjutamist, aga ilma kirjutamata ei ole võimalik saavutada mõtteselgust. Ilmselt saaksime siin ka instituudina doktorante veel palju rohkem toetada, näiteks kirjutamiskoolituste korraldamisega.

Millised on sinu soovitused tudengitele, kes soovivad alustada teadustööd bioinformaatika või genoomika valdkonnas?

Bioloogia on keeruline süsteem, mis nõuab süvenemist. Väga raske on kiiresti midagi huvitavat teha, aga kui on püsivust ja uudishimu, siis on palju põnevaid vastamata küsimusi. Bioloogia üks võlu on see, et peaaegu kõik on amatöörid. Ka aastakümneid töötanud teadlased on tihti eksperdid vaid mingil kitsal alal, aga sealt väljaspool peavad hakkama üsna algusest peale nagu kõik teisedki. Kogemus annab alati eelise, aga mitte nii suure, kui võiks esmapilgul arvata. Inimeses on 20 000 geeni, suurte kogemustega molekulaarbioloog tunneb neist hästi võib-olla paarikümmet.

Milline on olnud sinu teaduskarjääri kõige õpetlikum hetk?

Võimalikult avatult enda tulemustest rääkimine ja andmete jagamine. Olen saanud paljudes projektides olulist tagasisidet tänu sellele, et oleme enda tulemust avatult ja avalikult jaganud, tihti juba enne seda, kui meil on artikkel avaldatud või isegi eeltrükk välja pandud. Minu kogemus on, et ei tasu karta, et keegi sinu tulemused ära varastab. Palju suurem oht on see, et sinu analüüsis või katses on mõni oluline viga, mis on sul endal märkamata jäänud, aga mis võib lühikese vestluse käigus kiiresti välja tulla.

Austan neid, kes teevad oma tulemused võimalikult vara avalikult kättesaadavaks. Ei mõista, kui avaldatakse artikli eeltrükk ilma algandmeid või peamisi masinloetavaid tulemusi avaldamata. Mis on selliste reklaampostituste mõte?

Kui sa ei oleks teadlane, siis millist ametit tahaksid üheks päevaks proovida ja miks?

Õpetaja. On veel palju teisi põnevaid ameteid, aga suurt osa neist ei ole tingimata mõistlik üheks päevaks proovida – näiteks reisilennuki piloot või arst.