24.05.2018

Data vs. Analytiikka

Hei,

Työskennellessäni suuryritysten sekä julkisen puolen organisaatioiden kanssa, olen huomannut että data-osaajat ovat tietyllä tavalla siiloissa. Tämä on tietysti ymmärrettävää, koska organisaatioiden rakenteet tukevat työnjakoa ja erikoistumista.

Kuitenkin datan kokonaisvaltainen hyödyntäminen ja tekoäly peräänkuuluttavat entistä parempaa eri osaajaheimojen yhteistyötä.

Esimerkiksi joskus data ja analytiikka nähdään täysin eri asioina ja sitä tekevät eri yksiköt ja ihmiset. Tietovarasto sekä muille datan säilömiseen erikoistuneille saattaa tulla tietopyyntöjä Data Scientisteltä sekä muilta analyytikoilta, eli että saisinko csv-muodossa dataa jostain tietystä osa-alueesta. Tai he pystyttävät paikallisia tietoaltaita (Data Lake) ilman, että muut edes tietävät tästä.

Sitten datavarastointi-ihmiset ihmettelevät, että miksi dataa piti toimittaa johonkin. Ei kerrota, että mihin tarkoitukseen dataan hyödynnettiin.

Kumpikin ryhmä kokee työnsä tärkeäksi ja syystä. Välillä on vastakkainasettelua ilmoilla ja siksi kirjoitan nyt aiheesta: Data vs. Analytiikka?

 

Ennen kaikilla oli samaa dataa

Jotain vuosia sitten, analytiikan osaaminen ja sen kehittynyt hyödyntäminen nähtiin erottavana tekijänä. Yritys, joka osasi hyödyntää analytiikka parhaiten, sai kovimman kilpailuedun.

Ennen Big Dataa, data nähtiin ns table stakena (pokerista tuttu termi, eli kaikilla samat alkupanokset) ja jokaisella saman toimialan yrityksellä oli saman tyyppistä dataa ja saman tyyppisen datalähteet. Vähittäiskaupalle oli tärkeää transaktiot, teleoperaattorille puhelutiedot ja pankille tilitiedot. Datalähteitä oli hyvin rajallinen määrä ja ne olivat pääasiassa sisäisiä IT-järjestelmiä.

Ne yritykset menestyivät, jotka osasivat käyttää edistynyttä analytiikka parhaiten. Esim KONE oli tässä taitava ja sai kilpailuetua. Analytiikan ja algoritmien kehittäminen oli kallista –  yrityksellä piti olla sekä osaamista että kallista teknologiaa. Mikä tärkeintä, algoritmien kopiointi oli erittäin hankalaa, siksi juuri saavutettiin kilpailuedun kasvu.

Alettiin puhua edistyneestä analytiikasta ja kaikki halusivat hyödyntää sitä kilvan, kun huomattiin sen tuovan konkreettista tulosta ja valtavaa kilpailuetua. Hämmästeltiin Netflixiä ja muita edelläkävijöitä.

Edistynyt analytiikka nähtiin BI:n jatkeena ja Forbes julisti Data Scientistin vuosisadan seksikkäimmäksi ammatiksi.

Tämä oli ajanjakso, jolloin analytiikka oli niskan päällä.

 

Datan uusi tuleminen

Viime vuosina asetelma on kääntynyt päälaelleen. Ei siksi, että analytiikka ja algoritmit olisivat vähemmän tärkeitä, päinvastoin. Ne ovat niin tärkeitä, että niiden saatavuus markkinoilla on kasvanut valtavasti.

Open source -tuotteita on ilmaantunut yhä lisää ja markkinoilla on valtavasti tarjontaa. Lähes kaikki teknologiatoimittajat ovat nyt mukana kisassa. Vai oletko kuullut isosta teknologiatoimittajasta, joka ei tarjoaisi analytiikka- ja tekoälytoiminnallisuuksia integroituna tarjoamiinsa?

Analytiikan ja algoritmien kehittäminen halpeni, kuka vain pystyi ottamaan ratkaisut käyttöönsä. Alettiin puhua, että algoritmit ovat stable stake, mahdollistaja, joka on jokaisen saatavilla. Se ei tuonut enää kilpailuetua. Esimerkiksi Google ja Microsoft tarjoavat voimakkaita tekoälyalustojaan käyttöön ilmaiseksi.

Eri datalähteiden dramaattisen kasvun myötä todettiin, että nyt itse asiassa kallein alue onkin sopivan datan kerääminen, aivan kuten algoritmien kehittäminen ennen.

Nyt onkin alkanut uusi kilpailu siitä, kuka ymmärtää omaa datavarantoaan sekä kerää ja yhdistää dataa parhaiten uusista lähteistä omiin datoihinsa. Toisin sanoen on käynnissä kilpajuoksu siitä, kuka keksi innovatiivisimman uuden datalähteen ja integroi sen parhaalla mahdollisella tavalla olemassa oleviin dataratkaisuihin.

Kuten sanottu, jokainen voi ottaa analytiikkaratkaisun tai algorimitmit käyttöön, eli ne ovat kopioitavissa, mutta uusien datalähteiden hyödyntäminen ja datan kerääminen ei ole. Kenelläkään ei ole samaa yhdistelmää datalähteitä sekä prosessia datan systemaattiseen keräämiseen ja hyödyntämiseen.

Vaikka maailman arvokkain yritys Google jakaa algoritmeja täysin ilmaiseksi, se ei helpolla antaisi dataansa muiden käyttöön, ei aina edes rahaa vastaan. Internet on täynnä oikeita ja hyödynnettävissä olevia algoritmeja, mutta ilmainen data on pääasiassa vain harjoitteluaineistoa tai julkisia open data tietoaineistoja. Niiden analysointi voi olla opettavaista, mutta se ei useinkaan sellaisenaan hyödytä yrityksiä (toki tekoälyosaamisen kehittäminen millä vain datalla kasvattaa osaamista ja sitä kautta hyödyttää yritystä).

Voin antaa ilmaisen vinkin: jokainen yrityksesi datahanke joka lisää datan ymmärrystä ja uusien datalähteiden käyttöä, tekee kilpailun yritystäsi vastaan paljon vaikeamman. Nämä hankkeet vaativat investointia, mutta kilpailijoille saman kopiointi on jo liian suuri tai mahdoton investointi.

 

Yhteenveto

Vaikka yllä kuvaan kärjekkäästi datan ja analytiikan kamppailua, tosiasia on että ne tarvitsevat toinen toisiaan. Ilman dataa et voi hyödyntää analytiikkaa etkä tekoälyä. Pelkkä data ilman analytiikkaa, on kuin hienosti toimiva moottori autossa, jossa ei ole pyöriä.

Kellään ei ole juuri samaa dataa kuin sinun yritykselläsi. Voittava yhdistelmä on luoda kilpailuetua ensin oman datan ymmärryksellä ja täydentää sitten omaa dataa ulkoisilla tiedoilla. Opettele samalla itse hyödyntämään open source -teknologioita sekä hyvää yhteistyötä teknologiatoimittajien kanssa tuotantoonvientivaiheessa.

Tähän kuuluu myös Data Science osaamisen laajentaminen. Muidenkin kun Data Scientistien tulisi ymmärtää alan perusteet. Data Science-osaajan tulisi olla myös edustettuna yrityksen johtoryhmässä. Nyt he ovat usein erillisessä yksikössä ja IT-miettii mihin lokeroon heidät tulisi sijoittaa.

Miksi Google ja Amazon ovat tässä niin hyviä? Koska he ovat teknologiayrityksiä joissa johto on ymmärtänyt datan strategisen merkityksen. Datan ymmärrys ja hyöydyntäminen tärkeänä assettina voi olla suorastaan eksistentiaalinen kysymys. Kuten kouluttajamme Stephen Brobst sanoo: joko olet datayritys, tulet datayritykseksi tai olet entinen yritys.

Johto on tässä erityisasemassa: datatalouden ja tekoälyn hyödyntäminen edellyttää johdon päätöstä, strategiaa ja sitoutumista. Jos johtohenkilöt ymmärtävät ison kuvan datan siiloutumisesta, edistyneen data-analytiikan (Data Science) valtavasta potentiaalista, sekä eri osaajaheimojen yhteistyön koordinoinin merkityksestä, niin meillä Suomessa on valtavat mahdollisuudet tulla tekoälyn edelläkävijöiksi!

Olen huomannut – onneksi – tässä tapahtuneen muutoksen ihan viime vuosina. Entistä useammin meidät kutsutaan konsultoimaan ja kouluttamaan suoraan liiketoimintajohtoa. Ja aiheena on oman datan (sekä mahd. uuden datan) ymmärrys ja tekoäly. Tulevaisuuteen varaudutaan parhaiten laittamalla nyt datat kuntoon.

Ystävällisin terveisin,
Ari Hovi & tiimi

Ps. Järjestämme nyt ensimmäisenä Suomessa Deep Learning-menetelmään pohjautuvan tekoälyvalmennuksen  – Käytämme koulutuksessa TensorFlowta, joka on kuumin alan teknologia tällä hetkellä.

 

AI DEVELOMENT IN PRACTICE WITH DEEP LEARNING AND TENSORFLOW 6.6 – 7.6.2018, HELSINKI

Vetäjänä on alan huippu Tarry Singh, joka on ollut tekoälypioneerin Andrew Ng:n opissa. Tämä Courseralle suunniteltu koulutus  on valittu toiselle sijalle Inc -teknologiajulkaisun äänestyksessä maailman parhaista tekoälykursseista.

Koulutus on ainutlaatuinen ja sinne otetaan vain rajoitettu määrä osallistujia. Varaa siis paikkasi ajoissa!

Lisätiedot ja ilmoittautuminen tästä

Saattaisit olla kiinnostunut myös näistä

Microsoft Fabric: Shortcuts

Lue lisää

Data Lakehouse -projektit käytännössä: Kokemuksia asiantuntijoilta

Lue lisää

Eettinen tiedonkäyttö: Vastuullisuuden peruspilarit

Lue lisää