Hei,
Olen Hannu Järvi ja aloitin Ari Hovilla partnerina tammikuussa. Olen ehtinyt tavata asiakkaita laajalla rintamalla alkuvuoden aikana. Tästä on muodostunut hyvä kuva siitä, mitä asiakkailla on tekeillä ja mitä yhteisiä haasteita heillä data-hankkeissa esiintyy.
Kirjoitan blogissani itseäni kovasti inspiroivasta aiheesta. Se liittyy siihen, miten analytiikkahankkeiden onnistumisen edellytyksiä voi merkittävästi parantaa. Tämä kaikki on oleellista tämän päivän analytiikkahankkeissa, mutta luo myös pohjan tekoälyn soveltamiseen tulevaisuudessa.
Onko analytiikkahankkeet vaarassa epäonnistua?
Analytiikkahankkeet epäonnistuvat usein. Tietokirjailija ja Data Science -konsultti Meta Brown arvioi, että analytiikkahankkeiden ROI ei tyypillisesti saavuta edes break eveniä. Kuitenkin odotukset analytiikalle ovat hyvin korkealla. Maailma on täynnä menestystarinoita siitä, kuinka analytiikalla on parannettu sekä keskeisiä asiakaskokemuksen mittareita – tyytyväisyyttä, konversiota, asiakaspoistumaa – että myöskin parannettu yritysten sisäistä tehokkuutta. Menestystarinoissa ovat luonnollisesti yliedustettuina internet-ajan jättiläiset (Google, Amazon jne.) jotka ovat data- ja analytiikkakeskeisiä lähtökohtaisesti. Kuitenkin menestystarinoita löytyy kauttaaltaan koko yrityskentästä, myöskin perinteisiltä toimialoilta.
Analytiikkahaasteessa ja toimialalla toisensa perään uudet menetelmät kuten Deep Learning -arkkitehtuurin perustuvat koneoppimismenetelmät ovat lyöneet perinteiset joskus vuosikymmeniä kehitetyt menetelmät, usein valtavalla marginaalilla. On siis odotettavissa, että menestystarinoita tullaan näkemään kiihtyvällä tahdilla myös perinteisillä toimialoilla.
Miksi suurimmalla osalla yrityksistä hankkeet epäonnistuvat, kun toisilla ne ovat valtavia menestyksiä?
Koneoppimiskurssimme kouluttaja Lasse Liukkonen kertoi, että suurimmassa osassa käyttötapauksista ei edes tarvita näitä edistyneimpiä koneoppimismenetelmiä. Toimeksiannoissaan he tyypillisesti saavuttavat selkeästi asiakkaan nykytilaa parempia tuloksia asetetussa tutkimushaasteessa jo yksinkertaisilla menetelmillä, kuten lineaarisella regressiolla. Taloudellisesti yritys voi saada jopa kymmenien prosenttien parannuksen asetetussa tavoitteessa varsin suoraviivaisillakin menetelmillä.
Analytiikkahankkeiden prosessi: CRISP-DM
Yritysten analytiikkahankkeiden epäonnistumista ei siis selitä itse analytiikkahaasteiden ylivoimaisuus. Lahjakas Data Scientist pystyy tyypillisesti ratkaisemaan hyvin formuloidun tutkimusongelman ja tuottamaan ainakin jonkin verran nykytilaa parempia tuloksia, jos vain kunnollista dataa on saatavilla. Edellinen virke itse asiassa sivumennen listasi, mistä oman käsitykseni mukaan ongelmat johtuvat. Tavoitteita ei saavuteta koska:
- Tutkimusongelmat on formuloitu huonosti
- Dataa ei ole saatavilla
CRISP-DM (Cross Industry Standard Process for Data Mining) on laajimmin Data Science -toimeksiannoissa noudatettu prosessi:
https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining
Prosessi on yhtä vahva kuin sen heikoin lenkki. Olen selvittänyt sitä, mihin Data Science -aloitteet kaatuvat haastattelemalla kouluttajiamme, joista monet ovat maailman ykkösnimiä Data Managementissä, sekä perehtymällä saatavilla olemaan tutkimusmateriaaliin ja artikkeleihin. Näistä piirtyy selkeä kuva siitä, että ongelmat ovat ihan samoja kuin jo 20 vuotta sitten, kun itse tein kädet savessa analyytikon töitä. Prosessi on rikki heti alussa.
Onko ongelma kommunikaatiossa?
Prosessi alkaa “Business understanding”-vaiheesta. Tässä vaiheessa tutkimusongelma formuloidaan mahdollisimman selkeästi ja yksikäsitteisesti siten, että analyytikot voivat ryhtyä sitä selvittämään. “Data-understanding”-vaiheessa tutkimusongelma käännetään datan kielelle – sellaiseksi että tutkimusongelma voidaan saatavissa olevaa dataa analysoimalla selvittää. Ihannetilanteessa päätöksentekijät ja analyytikot keskenään iteroivat näiden kahden vaiheen välillä niin pitkään, kunnes yhteisymmärrys tutkimusongelmasta on varmistettu.
Oma kokemukseni on, ja haastatteluni tukevat tätä, että kommunikointi päätöksentekijöiden ja analyytikoiden välillä on valitettavan yksipuolista. Päätöksentekijä formuloi ongelman niin hyvin kuin kykenee, joka ei yleensä ole riittävän hyvin, ja olettaa analyytikon ottavan siitä kopin kunnes palaa valmiin ratkaisun kanssa.
Yhteisymmärryksen varmistamisen lisäksi kommunikoinnilla pitäisi pyrkiä hiomaan tutkimusongelmaa kohti toteutettavampaa suuntaa. Toteutettavuuden kannalta keskeistä on, että tarvittavaa dataa on saatavilla ja se on laadukasta. Liian usein realististen tavoitteiden sijaan esitetään villejä toiveita, joista parhaimmillaankin vain osa on toteuttavissa. Paitsi että pyydetään liikoja, analytiikan kehittyessä yhä suuremmaksi ongelmaksi muodostuu se, että pyydetään liian vähän. Tavoiteltaessa kuuta taivaalta, unohdetaan kaivaa kultaa jalkojen juuresta. Päätöksentekijöiden ja analyytikoiden tiiviillä yhteistyöllä paitsi varmistetaan, että tavoitteet on toteutettavissa, myös pyritään löytämään helposti kerättävät hedelmät.
Tiivis yhteistyö päätöksentekijöiden ja analyytikoiden välillä on keskeisin edellytys analytiikkahankkeen onnistumiseksi.
Päätöksentekijöiltä tarvitaan asennemuutosta. Päätöksentekijöiden on otettava omistajuus hankkeista. Heidän panostaan tarvitaan tavoitteiden täsmentäminen läpi koko hankkeen ei ainoastaan hankkeen alussa. Vaikka asenne olisi kunnossa, kommunikaatio on silti haasteellista. Päätöksentekijän ja analyytikon osaamisalueet ovat tyypilliset hyvin erilliset, jolloin yhteistä tartuntapintaa on vähän.
Systemaattinen lähestymistapa – mallinna data ketterästi
Jo analyytikkovuosinani mietin, että mikä tähän toimisi lääkkeeksi, eikä asia ole juuri vuosien saatossa parantunut. On tavallaan paradoksaalista, että siitä huolimatta, että moni tunnistaa kommunikaatiohaasteen, siihen on kehitetty hyvin vähän työkaluja. Analytiikkaprosessin muihin vaiheisiin on saatavilla kehittynyttä teknologiaa, ohjelmistoja ja menetelmiä.
Osallistuin aiemmin keväällä Arin vetämälle tiedonmallinnuskurssille, jolloin sain ahaa-elämyksen. Käsitemallinnus on erinomainen väline liiketoimintahaasteiden kuvaamiseksi datan kielellä. Tai tarkennan: Käsitemallinnus on erinomainen väline, kun sitä käytetään ketterästi, millaiseksi Ari on omaa mallinnusmenetelmäänsä kehittänyt.
Käsitemallinnus ei välttämättä tule ensimmäisenä työvälineenä mieleen Data Science -toimeksiannoissa työskenteleville. Käsitemallinnusta, kuten kaikkea tietovarastointiin liittyvää pidetään usein raskaana, hitaana, byrokraattisena ja vanhanaikaisena, kun taas Data Science on ketterää ja nykyaikaista. Vika ei kuitenkaan ole käsitemallinnuksessa vaan siinä kuinka raskaasti sitä yleensä sovelletaan.
Käsitemallinnus on erinomainen väline Data Science -toimeksiantoihin. Ari Hovi on kehittänyt käsitemallinnus-konseptiaan, Hovi Data Frameworkiä (HDF), vuosien ajan sellaiseksi, että tuloksia saadaan tunneissa ja päivissä, ei kuukausissa ja vuosissa. Se on mielestäni paras systemaattinen ja looginen menetelmä analytiikkahankkeiden kommunikaation parantamiseksi, mitä olen tähän asti nähnyt. Tätä kautta se on keskeinen väline myös hankkeiden onnistumisedellytysten parantamiseksi.
Datavetoisen organisaation rakentaminen
Kuten alussa mainitsin, tapaamisissani on muodostunut hyvä kuva organisaatioiden yhteisistä data- ja analytiikkahaasteista. Nyt organisaatiot haluavat nostaa, ei vain data-ammattilaisten osaamisen tasoa, vaan myös ei-teknisen väen data-osaamista. Ymmärretään että kehittyvä analytiikka muuttaa käytännössä jokaista funktiota ja työroolia, ja jatkossa asiat pitää perustella enenevästi datalla. Nyt siis halutaan, että data-ymmärrys olisi laajempaa, jotta data-vetoinen (data driven) toimintatapa juurtuu organisaation päivittäiseen tekemiseen.
Minusta tämä johtopäätös on täysin oikea. Ymmärryksen organisaatiossa pitää olla sekä leveämpää että syvempää, jotta on mahdollista siirtyä seuraavaan vaiheeseen, eri koneoppimiseen ja tekoälyn hyödyntämiseen. Tähän ollaan nyt pikkuhiljaa herätty ja se näkyy meillä tarjouspyyntöjen suurena kasvuna.
Ystävällisin terveisin,
Hannu Järvi
Ehdit vielä hyödyntää seuraavat tarjoukset:
Katso lisätiedot alta ja hyödynnä Early Bird tarjous – 20 % ennen 30.6.2017 ilmoittautuneille.
Data Vault 2.0. Bootcamp + Certification
04.09.2017 – 06.09.2017 Scandic Marina Hotel, Katajanokanlaituri 7, Helsinki 3 000 € + alv
Lisätiedot ja ilmoittautuminen tästä
Tarjoamme nyt – 20 % kaikista ensi syksyn koulutuksista Early Bird -tarjouksena 30.6.2017 asti. Käytä tilauksen yhteydessä koodia: Syksy2017_EarlyBird.
Tutustu kursseihin tästä