24.05.2017

Data-alan termeistä ja hypetyksestä

Hei,

Olen pitkän urani aikana nähnyt teknologioiden tulevan ja menevän ja termien muuttuvan. Uusia konsepteja tuntuu tulevan sellaisella vauhdilla, että monien termien kanssa saattaa tulla epäselvyyttä mitä näillä kaikilla oikein tarkoitetaan.

Data-ala on myös kovassa murroksessa, ja hypettämiseltä on vaikea välttyä. Vaikka joku uusi asia on todella mullistava se yleensä hypetetään siten, että ihmisten odotukset kasvavat liian suuriksi. Odotetaan että uusi juttu tulee heti käyttöön ja tavallaan petytään, jos niin ei käy. Varsinkin kun evankelistat lupaavat eksponentiaalista kasvua ja muutoksen ennennäkemätöntä nopeutta. Hyvä esimerkki tästä on esim. mobiiliteknologia. Jo 15 vuotta sitten niistä puhuttiin, mutta vasta nyt palvelut ovat oikeasti käytössämme älypuhelimessa. Kehitys on nopeaa, mutta silti vie oman aikansa, että ne tulevat data-ammattilaisen to-do listalle.

Käyn alla hieman läpi, mitä tiedonhallinnan (Data Management) termeillä oikein tarkoitetaan. Olen myös arvioinut kouluarvosanoilla kunkin osa-alueen tärkeyttä, eli kuinka olennaista ne ovat tulevaisuudessa sekä maturiteetin, eli missä kohtaan mennään nyt. Haluan korostaa, että nämä perustuvat omaa subjektiiviseen arviooni ja keskusteluihin kansainvälisten ja suomalaisten kollegojen kanssa.

 

 

Business Intelligencellä (BI) tarkoitetaan liiketoiminnan raportointia ja analysointia käyttäen hyväksi erikoistuneita BI-ohjelmistoja. Self Service BI:llä tarkoitetaan sitä, että liiketoiminta voi itse analysoida itselleen tärkeää tietoa. BI -raportit ovat yrityksissä tuotantotyyppisiä ja niiden laatuun panostetaan. BI-aluetta täydentämään on tullut Data-analytiikka (ks. oma kohtansa).

BI on yleensä taaksepäin katsovaa, eli analysoidaan mennyttä kautta. Tulevaisuudessa perinteisiä BI-ratkaisuja täydentää kasvava joukko edistyksellinen analytiikan ratkaisuja, mm. ennustava analytiikka ja koneoppiminen. Taaksepäin katsomisen merkitys vähenee, kun tulevaisuutta pystytään ennustamaan paremmin.

Tärkeys tulevaisuudessa: 7 (Self Service 8,5)

Maturiteetti: 8

Tietovarasto (DW) on se paikka, johon datat kerätään eri järjestelmistä, jotta niitä voidaan raportoida. Joidenkin mielestä raskas ja kallis harjoitus, mutta isompi organisaatio silti tarvitsee sellaisen lähes aina, koska edellä mainitut BI-työkalut eivät itsessään auta haastavassa raportoinnissa. Ns. ”klassisen” tietovaraston, jollaisena me se tänä päivänä tunnemme, merkitys tulee tulevaisuudessa vähenemään. Tilalle tulee laajempikäyttöinen Data Platform. Kaiken datan alustana Data Platform tukee perinteisen raportoinnin ja analysoinnin lisäksi digitalisaatiota, tekoälysovelluksia ja monia muitakin toimintoja.

Toteutusalustana tulee jatkossakin olemaan relaatiokantoja mutta myös muita ratkaisuja, kuten Hadoop.  Data Platformit rakennetaan enenevässä määrin pilviratkaisuna.

Tärkeys tulevaisuudessa: 7,5 (Data Platform 9)

Maturiteetti: 9

Business/Data dashboard on ikään kuin auton mittaristo, jolla pyritään seuraamaan keskeisiä liiketoiminta muuttujia, KPI:tä enemmän reaaliaikaisesti. BI-ohjelmistot yleensä tarjoavat sellaisia. Tulevaisuudessa reaaliaikaisen analyysin ja tunnuslukujen merkitys korostuu. Johto voi seurata tilannetta mobiilisti ja reagoida nopeasti. Myös KPI:den jakaminen sidosryhmille, kuten sijoittajille tai asiakkaille on entistä tärkeämpää – ja nyt teknologia mahdollistaa sen hyvin. Haaste näissä on sama, kun BI:ssä, eli data pitää olla hyvälaatuista.

Tärkeys tulevaisuudessa: 8,5

Maturiteetti: 7,5

SQL-kieli on ilmaisuvoimainen ja laajalle levinnyt kieli ja edelleen perustyökalu tietojen kaivamiseen järjestelmien tietokannoista. Se on keskeisessä roolissa myös tietovarastoinnissa. Olisi voinut ajatella, että BI-tuotteet vähentäisivät sen käyttöä, mutta SQL:n rooli on suorastaan kasvanut.  Relaatiokantojen kanssahan ei muilla kielillä voi keskustellakaan kuin SQL-kielellä. Myös Hadoopin ja monien NoSQL-tietokantojen päälle on tehty SQL-liittymiä. Näköpiirissä ei ole mitään muuta kieltä, joka korvaisi SQL: n.

SQL-kieli sopii myös hyvin generoitavaksi, tyypillisesti BI-tuotteiden toimesta. Tulossa on uutta kehitystä, kuten puheohjattua SQL:n generointia sekä tekoälyn kirjoittamaa SQL:ää.

Tärkeys tulevaisuudessa: 8,5

Maturiteetti: 10

ETL on datan siirtämistä eri tietojärjestelmistä tietovarastoon tai Data Platformiin. Nämä ovat työläitä vaiheita, mutta tärkeitä tietojen integroimiseksi ja saattamisessa oikeaan muotoon. Jatkossa dataa siirretään entistä enemmän reaaliaikaisena jolloin perinteisen ETL:n rooli pienenee.  Markkinoilla on kasvava määrä automaatiotyökaluja, jotka vähentävät ETL-ohjelmoinnin määrää.

Tärkeys tulevaisuudessa: 6 (automatisoituna 8)

Maturiteetti: 7

Big Data on käsite, jonka merkitys vaihtelee näkökulmasta riippuen. Konseptiin kuuluvat isot massat sekä ei-strukturoidut datat. Tähän liittyvät uudet teknologiat tulevat olemaan keskeisessä roolissa kaikissa isoissa organisaatioissa. Tällä hetkellä käyttö vaatii vielä paljon teknistä osaamista ja päivitykset aiheuttavat harmaita hiuksia. Datan määrä tulee kasvamaan ja uskon, että tulevaisuudessa kaikki organisaatiot tavalla tai toisella hyödyntävät ei-strukturoitua tietoa. Myös isot teknologiatoimittajat ovat ottaneet ne osaksi omia tarjoamiaan, joten käyttötuki kehittyy jatkuvasti. Hadoop-pohjainen Data Lake -arkkitehtuuri on jo nykyisin tärkeänä osana yhä useammassa arkkitehtuurissa EDW:n (Enteprise Datawarehouse) ohella.

Tärkeys tulevaisuudessa: 10

Maturiteetti: 5,5

Data-analytiikkaa voidaan kutsua myös edistyneeksi analytiikaksi (Advanced Analytics), datan louhimiseksi (Data Mining) tai datatieteeksi (Data Science). Se on oikeastaan jatke BI:lle. Kun BI tuottaa hyödyllisiä, laadukkaita ja tuotannossa olevia raportteja on Data-analytiikka enemmän koeasetelmiin perustuvaa datan tutkimista. Kohteena on perinteinen historiadata, mutta myös isot massat, joista suuri osa tulee talon ulkopuolelta. Analyyseissä sovelletaan tilastollisia malleja. Data-analytiikan rooli tulee kasvamaan. Tietoon perustuva päätöksenteko menee tuskin koskaan pois muodista ja data-analytiikka tarjoaa siihen parhaat menetelmät. Datan analysoinnin kehittyneellä hyödyntämisellä on jo nyt saavutettavissa selkeää kilpailuetua ja sen vaikutus tiedonhallintaan tulee olemaan merkittävä. Pullonkaulana on osaamisen puute sekä johdon puutteellinen tietämys sen tuomista mahdollisuuksista. Koneoppiminen on data-analytiikan luonnollinen jatke.

Tärkeys tulevaisuudessa: 9

Maturiteetti: 7,5

Koneoppiminen (Machine Learning) on noussut uudeksi hypeksi sähköisessä muodossa olevan datamäärän kasvun myötä. Koneoppimisessa ohjelmisto oppii itsenäisesti päättelemään mallin analysoitavan lopputuloksen ja lähtömuuttujien välillä. Ohjelmistot itsessään voivat muuttua itseoppiviksi. Koneoppiminen tulee mullistamaan täysin monia tiedonhallinnan osa-alueita. Algoritmit ja oppivat ohjelmistot tulevat korvaamaan ja automatisoimaan valtavan määrän ihmistyötä ja ohjaamaan koko alan tulevaisuutta vahvasti. Maturiteetti on vielä alhainen ja toteutuksia on vielä vähän. Tekniikka itsessään on jo varsin pitkällä, mutta osaamisesta on työmarkkinoilla valtava pula. Liiketoimintajohdossakaan ei koneoppimisen huimia mahdollisuuksia kunnolla tiedosteta, joten hankkeitakaan ei käynnistetä.

Tärkeys tulevaisuudessa: 10

Maturiteetti: 5

Master Data Management (MDM) on syntynyt tarpeesta saada eri järjestelmiin sirpaloituneet ja moneen kertaan talletetut perustiedot parempaan hallintaan. Tyypillistä masterdataa ovat tuote- ja asiakastiedot. Osa ratkaisuista tehdään tietovarastoinnin ja Data Platform-ratkaisujen yhteydessä ja osa erikoistuneissa Master Data -toteutuksissa. Jatkossa Data Platform-ratkaisut ratkaisevat osan Master-Data -asioista. Avainasia on ymmärtää ja määritellä masterdata. Tässä tietojen mallinnus on tärkeässä roolissa.

Tärkeys tulevaisuudessa: 8,5

Maturiteetti: 8

Tiedon mallinnus (Data Modeling) on menetelmä kuvata tiedot, määritellä käsitteet sekä niiden väliset riippuvuudet. Käsitteiden yhdenmukaistaminen on tärkeä osa työtä. Jotta dataa voidaan analysoida tai automatisoida, sitä pitää ymmärtää. Tietojen välisten riippuvuuksien käsitteellinen mallintaminen on monesti ehtona, että ylipäänsä voidaan toteuttaa mitään data-alan hankkeita. Tiedon mallinnuksen tarve korostuu, vaikka koneoppiminen ja algoritmit tulevat, koska on mahdoton analysoida mitään, jos käsitteet eivät ole selvät. Tiedonmallinnuksen tarve on kasvussa, koska pilvipohjaisten applikaatioden ja sovellusten määrä kasvaa valtavaa vauhtia. Myös digitalisaatio halutaan nyt toteuttaa data-vetoisesti, ja tiedonmallinnus on se metodi, jolla datat otetaan kokonaisvaltaisesti käyttöön. Mallinnukseen on hieman heikosti digitaalisia työkaluja, eli miten kuvaukset saataisiin tallennettua ja kaikkien saataville. Olen itse kehittänyt Hovi Data Frameworkin juuri kyseisen prosessin nopeuttamiseksi.

Tärkeys tulevaisuudessa: 10

Maturiteetti: 8

 

Olen jättänyt tietoisesti pois kolme asiaa: IoT (Internet of Things), pilvipalvelut ja tekoälyn. Ne ovat ehkä vieläkin laajempia kokonaisuuksia ja eivätkä koske pelkästään tiedonhallintaa. IoT:n myötä dataa tulee olemaan valtavasti lisää, eli siksi se on olennainen konsepti myös tiedonhallinnan osaajille. Pilvipalvelut ovat erittäin tärkeässä roolissa esim. Big Data-ratkaisuissa ja ne mahdollistavat isojen datamassojen varastoinnin huomattavasti pienemmillä kustannuksilla, eli vaikutus on jo nyt todella merkittävä. AI on tavallaan koneoppimisen jatke ja tulee vaikuttamaan myös tiedonhallintaan, itse asiassa enemmän kuin mikään aikaisempi muutos historiassa.

Osa organisaatioista on hyvinkin pitkällä näissä, osa harjoittelee ja toisille asia on vielä täysin uusi. Kun käytämme googlea tai facebookia, käytämme jo huomaamattamme big dataa ja koneoppimista.

Datakäsitteiden määrityksiäni voi vapaasti jakaa esim johdolle tai uusille data-alan työntekijöille, näin pääsee hieman kärryille mistä tässä kaikessa on kyse.

 

T. Ari Hovi

 

Kevään erikoistarjous:

Olemme sponsorina TDWI:n jäsenille tarkoitetussa tapahtumassa 14.6.2017 (klo 8:15 – 12:00), jonka pääpuhujana on yhdysvaltalainen tiedonhallinnan vaikuttaja William McKnight. Aiheena on:

Raising the Information Management Maturity Curve: An Increase in Data Maturity Correlates to an Increase in Business Success

Lisätiedot ja ilmoittautuminen tästä

 

W. McKnight vetää myös samana päivänä puolen päivän kurssin aiheesta:

Introduction to NoSQL (klo. 13 :00 – 16:00)

Katso lisätietoa tästä

Olemme jo sopineet osan ulkomaalaisten it-vaikuttajien kanssa syksyn 2017 tilaisuuksista ja täytyy sanoa, että on ennennäkemätön kattaus tulossa. On AI ja IoT:ta , Agilea BI/DW-projektin toetusta, Datan virtualisointia, Data Lakea..maailman johtavilta guruilta!

Puhujina mm Stephen Brobst, Mike Ferguson, Rick van der Lans, Scott W. Ambler, Barry Devlin ja Alec Sharp. Herrat ovat kysyttyjä puhujia ja kiertävät ympäri maailmaan konsultoimassa ja kouluttamassa.

Tutustu tilaisuuksiin tästä
Tarjoamme – 20 % kaikista ensi syksyn koulutuksista Early Bird -tarjouksena 30.6.2017 asti. Käytä tilauksen yhteydessä koodia Syksy2017_EarlyBird.

Seuraa meitä LinkedInissä tästä. Olemme päättäneet julkaista päivittäin siellä data-alueeseen liittyvän artikkelin, videon tai uutisen Suomesta tai maailmalta.

Saattaisit olla kiinnostunut myös näistä

Data Lakehouse -projektit käytännössä: Kokemuksia asiantuntijoilta

Lue lisää

Eettinen tiedonkäyttö: Vastuullisuuden peruspilarit

Lue lisää

Tieto on valtaa – ja vastuuta

Lue lisää