Ari: Olet tehnyt pitkän ja vaikuttavan uran tiedonhallinnassa. Mitkä ovat viimevuosikymmenien suurimpia mullistuksia liittyen tiedonhallinnan teknologiaan?
Stephen: Tietovarastoinnin alkuaikojen suuri mullistus oli MPP-rinnakkaisprosessointi, jolla pystyttiin kustannustehokkaasti skaalaamaan laajoja datamääriä isojen volyymien palvelinteknologioita hyväksikäyttäen. Viime aikojen iso mullistus on sensoriteknologia, IoT ja kaiken mittaaminen.
A: Kuten kaikki tiedämme, Data Science on tullut kuvioihin ja tulee muuttamaan tavan, jolla tuotamme tietoa päätöksenteon tueksi. Niille jotka eivät ole alan asiantuntijoita, kertoisitko lyhyesti mitä Data Sciencellä tarkoitetaan?
S: Data Sciencessä pyritään etsimään datasta entuudestaan tuntemattomia malleja ja tilastollisia yhteyksiä valittujen muuttujien välillä. Se on luonteeltaan hyvin erilaista kuin Business Intelligence, jossa etsitään vastauksia kysymyksiin pääasiassa raportointia varten. Data Sciencessä oikeastaan etsitään niitä oikeita kysymyksiä. Esimerkiksi terveydenhuollossa eräs asiakkaani halusi säästää kustannuksissa ja samanaikaisesti parantaa hoidon laatua. Lähdimme analysoimaan dataa ja miettimään, että missä ovat suurimmat kulut ja missä kohtaa laatua voisi parantaa. He onnistuivat löytämään tilastollisesti merkittäviä indikaattoreita, jotka ennustivat tarpeettomia selkäleikkauksia. Nämä tunnistamalla pystyttiin ohjaamaan potilas relevantimpaan hoitoon. Potilaat olivat tyytyväisiä – kukapa haluaisi joutua turhaan leikkaukseen. Myös sairaala hyötyi merkittävästi, koska selkäleikkauksien määrä on suuri ja ne totta kai maksavat. Tämä on hyvä esimerkki siitä, miten tilastollinen analyysi voi tuottaa sekä mittavat säästöt, että parantaa laatua.
A: Data Scienteistä on nykyisin huutava pula. Hyvin harvalla on kaikki tarvittavat taidot. Mitkä ovat Data Scientistin tärkeimmät taidot?
S: Data Scientistillä pitää olla tietysti tarvittavat tekniset taidot, mutta lopulta tietyt perityt persoonallisuuspiirteet ovat erittäin tärkeitä. Eli pitää olla utelias ja sellainen, että on jatkuvasti esittämässä kysymyksiä. Itseasiassa parhaat Data Scientistit ovat todella ärsyttäviä ihmisiä. Ok, se oli vitsi, mutta paras Data Scientist kyselee jatkuvasti ikään kuin tyhmiä kysymyksiä, joihin hän haluaa kunnon perustelut dataan nojaten. Ei siis ole mitään valmiita käsityksiä maailmasta, kaikki pitää voida kyseenalaistaa ja todistaa tieteellisesti datan avulla.
Taitojen puolesta tärkeimmät osaamisalueet ovat tilasto-osaaminen, ennustemallit sekä koeasetelman rakentaminen. Mielestäni yksi harhaluulo on se, että Data Scientistin pitäisi osata ohjelmoida. Jossain tutkimuksessa on havaittu, että ohjelmointiosaaminen itseasiassa korreloi negatiivisesti Data Science -osaamisen kanssa, eli mitä parempi ohjelmoija, sitä huonompi Data Scientist. Tällä tarkoitan ehkä juuri sitä, että Data Science ei perustu tietotekniikkaan, vaan kykyyn analysoida dataa. Kaiken kaikkiaan itse uskon enemmän tiimeihin, kun siihen että yksittäinen ihminen omaisi kaikki tarvittavat ominaisuudet. Yksi aihe koulutuksessani onkin miten rakentaa oikeanlainen tiimi, joka jäsenet osaamiseltaan täydentävät toinen toisiaan. Toinen tärkeää asia on oppia keinot luoda tälle tiimille oikeat toimintaedellytykset organisaation sisällä.
A: Pitääkö Data Scientistillä on yliopistotasoinen koulutus tilastotieteestä?
S: Ei siihen sentään tohtorintutkintoa tarvita, mutta riittävän tilasto-osaamisen omaksuminen edellyttää kyllä kursseja ja kouluttautumista aiheeseen syvällisemmin kuin ihan perus yliopisto-opinnot jostain muusta alasta. Ainakin Yhdysvalloissa IT -tai liiketoimintaopinnot yliopistoista eivät vielä takaa riittävää osaamista tilastotieteestä. Pitää olla riittävä osaaminen korrelaatioista, kausaliteetista, tilastollisista merkitsevyystasoista, satunnaisotoksista sekä ennustamallinen rakentamisesta. Nämä ovat toisaalta tilastotieteilijälle ihan perusasioita.
A: Vaikka useat organisaatiot työllistävät Data Scientistejä Suomessa, moni käyttää ehkä enemmän ulkopuolisia konsultteja tähän, tarpeen mukaan. Sen sijaan BI on meillä yleensä oma sisäinen yksikkö tai funktio. Ovatko Data Scientistit Yhdysvalloissa osa tätä funktiota, vai muodostavatko he oman itsenäisen funktion?
S: Yleensä Data Scientistit ovat ”Data Analytics” funktion alla, mutta menestyvimmät organisaatiot pitävät ne lähellä varsinaista liiketoimintaa. Se on kaiken avain. Jos he ovat omassa ”poterossaan” keksimässä erilaisia ideoita, koko osaaminen jää silloin hyödyntämättä. Heidän siis tulee olla ikään kuin business partnereita liiketoiminnalle. Sellaiset yritykset, jotka todella ovat dataorientoituneita, palkkaavat omat Data Scientistit. Se ei kuitenkaan tarkoita, etteikö kannattaisi ostaa osaamista joskus myös ulkoisilta asiantuntijoilta. Itseasiassa se on erittäin kannatettavaa, koska se monesti auttaa nostamaan organisaation kokonaiskyvykkyyden tasoa. Tässä kohtaa on hyvä huomioida se, että ei kannata ottaa ulkopuolisia konsultteja vain tekemään yksittäinen ennustemalli ja sitten lopettaa siihen. Näin tehtäessä tieto ei siirry tarpeeksi organisaation sisälle. Data Sciencen hyödyntäminen ei ole vain yksittäisten mallien tekemistä, vaan jatkuvaa kehittämistä.
A: Jos haluaa olla todella datalla ohjautuva (data driven) organisaatio, minkälainen organisatorinen rakenne tulisi olla?
S: En ole niin varma siitä, että onko kyse oikeanlaisesta organisatorisesta rakenteesta. Kyse on mielestäni enemmänkin kulttuurista. Pitäisi luoda kulttuuri sille, että mitään ei perustella mututuntumalla vaan tutkimukseen perustuen ja siitä saatavaan dataan. Jos sinulla ei ole riittävää dataa päätöksentekoon, älä tee päätöstä vaan järjestä ”data science” -tyyppinen koeasetelma, ikään kuin pilottiprojekti ja kerää siihen riittävä määrä dataa. Näinä päivinä parhaiten menestyvät organisaatiot osaavat toteuttaa koeasetelmia liiketoiminnassaan jatkuvasti ja perustaa päätöksenteon puhtaasti niihin. Datan määrä ei sinänsä ole merkittävä asia, koeasetelmien määrä puolestaan on. Data Sciencen ei tulisi kuulua IT-funktioon. Nykyisin eniten kasvava johtoryhmätason positio Yhdysvalloissa on CDO (Chief Data Officer). Tämä on iso muutos ja vie kulttuuria sellaiseen suuntaan, että dataa todella hyödynnetään päätöksenteon tukena. Jos sellaista ei vielä ole, niin Data Science -tiimin tulisi raportoida strategiajohtajalle tai CFO:lle.
A: Puhuit koeasetelmien tärkeydestä. Voivatko BI-osaajat toteuttaa niitä?
S: Mielestäni Data Scientistien osaaminen kulminoituu juuri oikean viitekehyksen rakentamiseen koeasetelmille. Sitten BI-osaajat ja muut voivat toteuttaa ne, kaivaa datat ja hoitaa raportoinnin. Eli Data Scientistit luovat oikeanlaiset koeasetelmat valmiiksi muiden työstettäväksi. Se voidaan jakaa ikään kuin kolmeen osaan: datatuotekehitys (data R&D), tuotanto ja kulutus. Data Scientistit vastaavat datatuotekehityksestä, BI ja muut Data-ammattilaiset tuotannosta ja liiketoiminta lopulta kuluttaa sitä.
A: Koneoppinen (Machine Learning) tuntuu olevan kasvava alue. Mikä merkitys sillä on?
S: Sen sijaan, että manuaalisesti etsittäisiin muuttujien välisiä yhteyksiä datasta, annetaan tämä työ koneen tehtäväksi. Koneoppimiseen perustuvat algoritmit voivat kaivaa dataa, murskata sitä ja observoida tilastollisia yhteyksiä – asioita mitä ihmiset ennen tekivät. Ennustemallit muuttuvat itse-oppiviksi, joten ne oppivat onnistumisistaan ja epäonnistumisistaan ja muuttuvat koko ajan paremmiksi – vastakohtana aikaisempaan aikaan, joissa ihmiset korjailivat malleja.
A: Mikä koneoppimisen maturiteetti on Yhdysvalloissa, sovelletaanko sitä siellä jo paljon?
S: Tietysti se on vielä varhaisella asteella, mutta ne jotka käsittelevät valtavia määriä dataa, joutuvat jatkuvasti miettimään sen analysoinnin automatisointia. Edelläkävijöitä ovat IT-yritykset, mutta kasvavassa määrin myös IoT-ratkaisuja hyödyntävät teollisuusyritykset, jotka keräävät sensoridataa. Tuotantokoneiden vikaantumisen ennustaminen ja huoltotyö hyötyvät tästä erityisesti nyt ja tulevaisuudessa. Tulemme siis näkemään sen leviämisen kaikille teollisuuden aloille, jossa on mahdollista kerätä isoja datamassoja.
A: Datan visualisointia on tehty jo pitkään, mutta nyt se on saanut tuulta purjeisiin toden teolla? Mitä kehityksiä tällä alueella on viime aikoina ollut nähtävissä?
S: Nyt on mielestäni mielenkiintoinen muutos meneillään. Kuten sanoit, Datan visualisointia on tehty jo pitkään eikä se ole konseptina mitenkään uusi. Olemme pitkään ajatelleet sen tarkoittavan kaavioita, graafeja ja sen sellaisia, mutta ne ovat lopulta todella yksikertaisia tapoja esittää tietoa. Meillä on nyt käytössämme isoja määriä dataa ja nyt on tarjolla huomattavasti kehittyneempiä työkaluja visualisoida sitä, kuten itse-ohjautuvat graafit, lämpökartat sekä animaatiot. Nämä uudet metodit lisäävät graafien kerronnallista voimaa ja sisältöä huimasti. Kurssin toisena päivänä tulen kertomaan näistä kehittyneimmistä metodeista ja teknologioista. Uudet visualisointimenetelmät auttavat saamaan uutta arvoa datasta.
A: Meillä on nykyisin erittäin kehittyneitä BI – ja analytiikkatyökaluja käytössämme. Jotkut sanovat, että ne korvaavat perinteisen tietovaraston lähes kokonaan. Mitä mieltä itse olet tästä?
S: Ennen tietovarasto saattoi olla analytiikan keskiössä vahvemmin, nyt sen rooli on olla yksi osana isompaa ekosysteemiä. Tämä laajempi ekosysteemi pitää sisällään monia eri teknologioita joiden pitää toimia yhdessä, kuten relaatiokantoja, NoSQL-kantoja sekä erilaisia ohjelmointimalleja. Tätä kutsutaan Loogiseksi Tietovarastoksi (The Logical Data Warehouse). Tämä on erittäin tärkeä konsepti, jotta voimme optimoida Big Data ekosysteemiä. Itse välttäisin kutsumasta sitä Datan Virtualisoinniksi, sillä ihmiset ajattelevat, että on olemassa virtualisointiteknologioita, jotka yhdistävät dataa eri paikoista jollain tavalla helposti. Tämä ei pidä paikkaansa, yksittäinen teknologia ei vielä ratkaise ongelmaa.
A: Tulet Suomeen kouluttamaan. Mitkä ovat kolme avainkohtaa, jotka käyt kurssillasi läpi?
S: Ensimmäisen päivänä tulemme puhumaan paljon Data Sciencestä ja siitä, miten perinteisestä BI-ajattelusta päästään Datan löytämiseen (Discovery based analytics) ja oivaltamiseen perustuvaan analytiikkaan. Mitä tekniikoita on hyvä käyttää, mitä menetelmiä ja lähestymistapoja tulisi suosia. Toisaalta käymme läpi, miten nostetaan kyvykkyyden tasoa näissä kysymyksissä organisaation sisällä. Toisena päivänä kerron, miten siirrytään perinteisestä datan esittämisestä kehittyneempiin muotoihin, uusiin tekniikkoihin ja teknologioihin. Se auttaa todella katomaan dataa eri kulmasta ja antaa meille täysin uuden näkökannan siihen. Datan visualisaatio auttaa sinua näkemään sekä ison kuvan että porautumaan mielenkiintoisiin yksityiskohtiin.