Miten hyödyntää tekoälyajan tärkeintä kilpailuvalttia dataa?

Blogi

Kaksitoista vuotta sitten Illinois’n yliopiston tietojenkäsittelytieteen professori Li Fei-Fei sai idean. Siihen aikaan tekoälyalalla oli vallalla käsitys, että algoritmin laatu ratkaisee, ei niinkään data. Mitä jos tehtäisiin tosin päin, Li pohti. Jospa algoritmilla ei olisikaan niin väliä, vaan tietoaineisto olisi se, joka ratkaisee?

Asian selvittämiseksi Li päätti kartoittaa kaikki maailman esineet. Monet Lin kollegoista ilkkuivat tehtävää mahdottomaksi.

Kolme vuotta myöhemmin vuonna 2009 Lin tiimi julkaisi ImageNet -nimisen tietokannan. Siitä tietokannasta tuli tekoälyratasta pyörittävä virta.

Tietokanta synnytti vuosittaisen koneoppimisen kilpailun, ja vuonna 2015 kilpailun voittajatulos oli inhimillisen suorituskyvyn tasolla. Nykyisin kuvien luokittelutarkkuus on jo 97 prosenttia, eli enemmän kuin inhimillinen tarkkuus, joka on 95 prosenttia.

Sittemmin on huomattu, että laajoja tietoaineistoja hyödyntämällä algoritmeja voidaan kouluttaa suoriutumaan yhä paremmin.

Tässä ohjeita tekoälyajan tärkeimmän kilpailuvaltin, datan, hyödyntämiseen:

1. ohje: Datan määrä ratkaisee

Riittävä määrä dataa suoristaa mutkia. Paljon dataa tarvitsevissa koneoppimisen menetelmissä, kuten syväoppimisessa, algoritmi vaatii huomattavasti pienemmän määrän koodia kuin tilanteissa, joissa ongelmana on datan vähyys.

On jopa väitetty, että vanhempaa teknologiaa hyödyntäneessä Googlen konekääntimessä oli 500 000 koodiriviä. Nykyisessä, syväoppimista hyödyntävässä konekääntimessä on enää 500 koodiriviä. Koodin kirjoittamisesta on tullut niin vaivatonta, että se ei enää ole suurin este tekoälyn hyödyntämiselle. Nykyisin myös pienet yritykset ja yksittäiset henkilöt voivat kirjoittaa algoritmeja.

2. ohje: Tietoaineistojen yhdistäminen ratkaisee

Joskus tietoaineistojen kerääminen on hankalaa tai lainsäädännön takia jopa mahdotonta. Jotta itseohjautuva auto selviytyisi lumipyryssä, on sitä testattava lumipyryolosuhteissa. Tämä on mahdollista rajatuissa virtuaalisissa testausympäristöissä, joissa dataa voidaan kerätä olosuhteissa, joissa sitä muuten nykylainsäädännön puitteissa ei voisi kerätä.

Virtuaalinen testausympäristö vaatii toimiakseen useiden toimijoiden ekosysteemin, jossa parhaassa tapauksessa kerättyä dataa jaetaan sen yhteiskunnallisen vaikutuksen maksimoimiseksi. Suomen hallitus on perustanut automaattilaivojen testausympäristön, jonka tarkoituksena on edistää tekoälyn käyttöä merenkulussa yhdessä yritysekosysteemin kanssa.

Julkisia avoimia tietoaineistoja tulisi voida käyttää opetusdatana, varsinkin jos data on kerätty julkisin varoin. Usein yhden tietoaineiston data voi annotoida toisen aineiston dataa. Esimerkiksi otsonipitoisuutta kuvaavien satelliittikuvien tietoaineistojen yhdistäminen älypuhelimen GPS-reittitietoihin voi antaa hyvän arvion yksilön altistumisesta ympäristösaasteille. Onko altistumisen tasojen ja astman esiintyvyyden välillä riippuvuussuhdetta?

3. ohje: Nouse jättiläisten harteille

Tutkiessamme Folkhälsanin ja Keski-Suomen keskussairaalan retinopatiakuva-aineistoja, huomasimme, että koneen suoritusta paransi se, että sitä opetettiin luokittelemaan röntgenkuvia olemassa olevien, koirien, kissojen ja autojen ym. luokitteluun tarkoitettujen ohjelmien avulla, sen sijaan, että opetus olisi aloitettu nollasta. Tätä kutsutaan siirto-oppimiseksi, ja se on laajasti käytössä tekoäly-yhteisössä. Siirto-oppiminen helpottaa röntgenkuvien luokittelua, vaikkei ole mitenkään ilmeistä, että autojen, nostureiden ja kirahvien luokittelu auttaa löytämään luunmurtumia.

On siis olemassa paljon erilaisia valmiita malleja, joiden avulla pääsee alkuun pienelläkin datan määrällä. Teslan tekoälyjohtaja Andrej Karpathy onkin sanonut: ”Älä ole sankari ja yritä tehdä kaikkea itse, vaan käytä hyväksesi sitä mitä on tarjolla”.

4. ohje: Laadi hyvä datastrategia

Hyvässä datastrategiassa on kolme osaa.

Ensinnäkin, kannattaa kehittää tuotteita, jotka annotoivat dataa automaattisesti. Isot verkkofirmat ovat kuin koneita, jotka keräävät tietoa, hakutulosklikkauksia, some-päivitysten tykkäyksiä ja Twitterin uudelleentviittauksia. Miksiköhän niin? Onko asiakkaan ymmärtäminen tärkeää vai ei?

Toiseksi, kannattaa luoda sisäisiä ja ulkoisia prosesseja ja määrittää niille selkeät annotointiaskeleet, jotta tekoälyvalmiin datan keräämisestä tulisi normaalia toimintaa. Näin voidaan lisätä automaation astetta ja vähitellen siirtää yksitoikkoiset, automatisoitavat tehtävät ihmisiltä koneelle.

Kolmanneksi, kannattaa liittoutua toisten yritysten kanssa, luoda ekosysteemejä ja hankkia dataa kolmansilta osapuolilta, jos kerääminen ei nyt vaan ota luonnistuakseen.

5. ohje: Haasta dataa ja anna datan haastaa

Kannattaa varmistaa, että data kerätään kunnolla. Kun koneelle opetetaan tietty tehtävä esimerkkien avulla, on äärimmäisen tärkeää, että opetusdata on laadukasta.

Jos itseohjautuva auto esimerkiksi ohjelmoitaisiin ihmisten ajokäyttäytymisestä kerätyllä datalla, autokin käyttäytyisi kuin keskivertokuski. Se ajaisi joskus päin punaisia, koska niinhän ihmisetkin tekevät. Tämä ei kuitenkaan ole toivottavaa. Opetusdataa on siis karsittava ja järjestettävä niin, että siinä on vain puolueettomia, eettisesti hyväksyttäviä esimerkkejä. Kone on siinä mielessä ihmisen kaltainen, että hyvät esimerkit ovat paras tapa opettaa ja kouluttaa.

Tämän voi myös nähdä toisin päin: annetaan datan opettaa meille uusia asioita itsestämme. Inhimillisiin päätöksiin (kuten rekrytointipäätöksiin) perustuvaa tietoaineistoa hyödyntämällä voidaan päätöksentekoprosessi mallintaa niin, että nähdään onko tehty esim. sukupuolta, ikää tai etnistä alkuperää syrjiviä päätöksiä. Nykyisten koneoppimisen menetelmien avulla voidaan tunnistaa ja kitkeä pois päätöksentekoprosessien piileviä ongelmia.

6. ohje: Käytä dataa tekoälysovelluksen valintaan

Tekoälysovelluksen hankkija saattaa joutua valitsemaan useamman toimittajan väliltä. Paras tapa validoida sovellus on verrata sen suoritusta substanssiasiantuntijoiden arvioihin. Esimerkiksi radiologian asiantuntijaraati laitettaisiin arvioimaan keuhkojen röntgenkuvia, ja raadin arvioita verrattaisiin ehdolla olevan tekoälysovelluksen suoritukseen. Tämä on kuitenkin kallista.

Sovelluksen hankkija voi hyödyntää myös omaa, salaista tietoaineistoaan. Ensin pyydetään koodista kokeiluversio ja testataan sitä omalla tietoaineistolla. Tuloksia voi sitten verrata, jolloin selviää läpäisikö koodi testin. Kannattaa kuitenkin aina varmistaa, että sovellustoimittajat eivät pääse käsiksi salaiseen tietoaineistoon, muuten ne voisivat käyttää sitä koodin opettamiseen paremmaksi. Sovellustoimittajille ei pidä koskaan lähettää omaa dataa testaamista varten.

Itseohjautuvat autot voisivat oikeastaan hankkia ajokortin tekemällä virtuaalisen ajokokeen, johon sisältyisi valtava määrä hankalia onnettomuustilanteita ja eettisiä ongelmia. Myös nämä tietoaineistot olisi pidettävä salassa.

Tietoa kirjoittajasta

Mitä mieltä sinä olet?

Mitä mieltä sinä olet?