Tekoälyn kehitys on yksi jännittävimmistä kuluvan vuosisadan tulevaisuuden näkymistä. Älykkäillä tietokoneohjelmilla on jo nykyään moninaisia sovelluksia – oppivat algoritmit tekevät näkymätöntä työtään muunmuassa Internetin hakukoneissa, tietoaineistojen analyyseissä ja lääketieteellisten diagnoosien apuvälineenä. Tekoälyn kehitys on herättänyt myös pelkoja, kun tietokoneet syrjäyttävät ihmisen yhä useammissa yhteiskunnan toiminnoissa. Pessimistisimmissä arvioissa tekoäly onkin nähty jonkinlaisena teknologisen maailmanlopun airueena.
Omassa tutkimustyössäni olen päässyt valjastamaan tekoälyn varsin erikoislaatuiseen käyttötarkoitukseen. Erikoisalaani on maapallon muinaisen ilmaston tutkimus eli paleoklimatologia. Keskeisenä aineistona työssämme ovat maaperän uumenista kerätyt fossiilit, joista itse olen erikoistunut fossiilisiin siitepölyhiukkasiin. Paleoklimatologiassa fossiilit ovat välikappale maapallon muinaisten ympäristöjen ymmärtämiseen – eri fossiililajien esiintyminen ja niiden runsauksien vaihtelu kertovat muinoin vallinneista ilmasto-oloista.
Tulevaisuuden sijasta oma näkökulmamme on siis hyvin kaukaisessa menneisyydessä. Toisaalta kyseessä ei ole pelkästään akateemisesti kiinnostava luonnonhistorian tutkimus. Maapallon muinaiset ilmastovaihtelut antavat nimittäin arvokasta tietoa myös nykyisen, ihmistoiminnasta johtuvan ilmastonmuutoksen ymmärtämiseen. Muinaiset viileät ja lämpimät ilmastovaiheet ja niiden vuorottelu halki vuosituhansien kertovat ilmaston muutosten syistä, nopeuksista ja mahdollisista seurauksista. Samalla kun katsomme sydän syrjällään kohti tulevaa, on myös kaukaisesta menneisyydestä alettu etsiä osviittaa siitä, mitä tuleman pitää.
Koska fossiiliaineistot ovat näin nousseet arvaamattomaan suureen arvoon ilmastonmuutoksen tutkimuksessa, ovat paleoklimatologit samalla ryhtyneet etsimään yhä kehittyneempiä menetelmiä aineistojensa ymmärtämiseen. Tätä pähkinää purressaan fossiilien tutkijat ovat tähynneet myös oman, perinteisen työkalupakkinsa ulkopuolelle – ja viime vuosina myös tekoälyn suuntaan.
Alamme kielessä puhumme ”tekoälyn” sijasta yleensä koneoppimisesta (engl. machine learning). Koneoppiminen on eräänlainen tekoälyn sovellus, jossa älykkäitä, oppivia tietokoneohjelmia käytetään erilaisten tietoaineistojen analyysin välineenä. Analyysia tekevä ohjelma oppii sille annetusta aineistosta, ja näin syntynyttä tietoa (aineistoa kuvaavaa mallia) voidaan sitten käyttää ennustamiseen.
Oma työni koneoppimisen parissa alkoi jo vuonna 2010, kun Helsingin yliopiston luonnonmaantieteen professori Miska Luodon kanssa ryhdyimme selvittämään, olisiko parhailla tuon ajan koneoppimismenetelmillä käyttöä fossiiliaineistojen analyysissä. Myöhemmin, vuosina 2014–2018 työtämme tuki Suomen Akatemia, joka rahoitti tutkimushankettamme ”Koneoppiminen paleoklimatologiassa”.
Uusimmassa tutkimuksessamme koneälyn pureskeltavana olivat Suomesta ja Yhdysvalloista kerätyt fossiiliset siitepölyt. Nämä suuret fossiiliaineistot sisältävät satoja tuhansia siitepölyjä, joista vanhimpien ikä oli yli 100 tuhatta vuotta. Tutkimuksessa testasimme kaikkiaan viiden erilaisen koneoppimismenetelmän kykyä löytää fossiiliaineistoista merkkejä muinaisista ilmastonmuutoksista. Tulokset ovat lupaavia: koneoppiminen tuntuu pärjäävän alamme perinteisiä menetelmiä paremmin muinaisilmastojen rekonstruoimisessa.
Kaikkein lupaavin testaamamme koneoppimisen menetelmä käyttää niinsanottuja päätöspuita muinaisten ilmastojen tutkimukseen. Päätöspuissa aineistoa käsitellään ylösalaisin käännettyä puuta muistuttavassa mallissa, jossa pohditaan yksi kerrallaan jotain piirrettä analysoitavassa aineistossa. Omassa tutkimuksessamme malli tarkastelee eri fossiilityyppien suhteellista runsautta analysoitavassa näytteessä. Useiden kysymysten kautta edetään puun tyvestä kohti sen oksia, joissa malli lopulta antaa arvion ilmastosta sinä ajankohtana, jota fossiilinäyte edustaa.
Yksittäinen päätöspuumalli on vielä hyvinkin yksinkertainen ja helppo esittää yllä nähdyn kaltaisena kuvana. Koneoppimisessa laaditut lopulliset mallit muodostetaan kuitenkin hyvin suuresta määrästä päätöspuita, joita voi lopulta olla sadoista kymmeniintuhansiin. Näin malli oppii yhä pienempiä yksityiskohtia analysoitavana olevasta fossiiliaineistosta ja kykenee arvioimaan yhä tarkemmin muinaisia ilmastoja. Mallien monimutkaisuuden – päätöspuiden suuren lukumäärän – vuoksi myös laskentaa tapahtuu todella paljon. Älykkäät, aineistosta yhä useampien toistojen kautta oppivat mallit ovatkin kouriintuntuva esimerkki tutkimusmenetelmästä, joka on tullut mahdolliseksi vasta verraten hiljattain, tietokoneiden tehon kasvettua.
Tutkijan näkökulmasta fossiiliaineistojen tutkimisessa koneoppimisella on kiehtova ristiriita. Työssä nimittäin kohtaavat todella perinteikäs luonnontiede – fossiilien tutkiminen – ja teknologinen ”state of the art”, uusista uusimmat data-analyysin menetelmät.
Sittenkin tämä yllättävä tutkimusalojen kohtaaminen on omalla tavallaan johdonmukainen. Data-analyysin näkökulmasta fossiiliaineistot on nimittäin kammottavan vaikea kohde. Tekijöitä, jotka kertovat ilmastosta – eri biologisia lajeja – on aineistoissa paljon, jopa useita satoja. Tilastotieteilijä sanoisi, että fossiiliaineistoissa on valtavan paljon ”selittäviä muuttujia”. Toisaalta vaikka jotkut lajeista kertovat paljon menneistä ilmastoista, monet lajit eivät kerro paljoakaan. Datassa on siis kohinaa ja häiriötekijöitä, ja muinaisten ilmastovaihteluiden ”signaali” saattaa olla heikko. Toisaalta juuri näiden vaikeuksien takia fossiiliaineistot ovat osoittautuneet tavallaan ihanteelliseksi paikaksi päästää tekoäly valloilleen. Perinteisiin tilastollisen mallinnuksen menetelmiin verrattuna tekoälymenetelmät ovat erityisen joustavia ja hallitsevat suuria ja monimutkaisia aineistoja.
Jos tekoälyn tulevaisuuden näkymät ovat joiltain osin pelottaviakin, ei tässä tapauksessa tarvitse pelätä seurauksia. Työssämme sörkkimämme eliöt ovat jo (kirjaimellisesti) kivikuolleita. Viimeisenä lahjanaan ne pystyvät kuitenkin kertomaan meille jotain omasta, muinaisesta elinympäristöstään.