16.09.2019

Mikä on tietovaraston ja -altaan rooli tulevaisuudessa?

Hei,

Olin viime keväänä Mike Fergusonin DataOps-koulutuksessa.

Hän on pitkän linjan tiedonhallinnan asiantuntija, ollut töissä Teradatalla kun se oli vielä startup.

Mike on ollut ollut myös legendaarisen Ted Coddin oppipoikana, joka kehitti relaatiotietokannat. Sittemmin hän on konsultoinut data-asioissa maailman suurimpia yrityksiä.

Data on nyt kaikkien firmojen johdon pöydällä hyvin vahvasti.  Mike Fergusonin mukaan koskaan hänen pitkän uransa aikana datan merkitys ei ole ollut yrityksille näin suurta.

Mike esitti koulutuksessa radikaalin idean. Hän puhuu virtuaalisesta data lakesta ja siitä, ettei dataa pidä tuoda lainkaan keskitetysti mihinkään altaisiin taikka varastoihin.

Onko keskitetty ratkaisu tullut tiensä päähän?

Tämä on mielenkiintoinen ja mielipiteitä jakava ajatus.

Arin ja hyvin monen gurun keskeinen ajatus on pitkään ollut se, että datat olisivat kaikki yhdessä paikassa, josta sitä hyödynnetään esim analytiikkaan ja tiedolla johtamiseen (mihin vain dataa tarvitaan, myös tekoälyyn).

Ajatus keskusvarastosta on näille datamessiaille vähän niin kuin demokratia, eli siihen kannattaa aina pyrkiä vaikka se aina toteutuisi ihan täydellisesti.

Keskitettyä ratkaisua on historiallisesti lähdetty rakentamaan keskitetyn tietovaraston (enterprise data warehousing) pohjalta.

Siinä dataa tuodaan mahdollisimman laajasti relaatiopohjaiseen tietovarastoon.

Tälläisen tietokannat ovat ikään kuin suuria Excel-tauluja, joissa voi helposti yhdistää ja hakea dataa.

Vertauskuva voisi olla kirjasto, jossa kirjat on hyllyssä järjestyksessä ja helposti hyödynnettävissä.

Tämän ratkaisun haaste on sen työläys. Uutta dataa tulee koko ajan lisää ja sen järjestäminen tietokannan taulurakenteeseen vaatii etukäteissunnittelua ja vie aikaa.

Toinen ratkaisu tähän voisi olla ns Data lake, suomeksi tietoallas (ennen tässä yhteydessä puhuttiin Big Datasta). Siinä kaikki data kopioidaan käsittelemättä yhteen paikkaan, joka tiedostopohjainen, vähän niin kuin läppärisi c-hakemisto.

Jos kirjastovertausta käyttää, niin tässä vaihtoehdossa kirjat tuotaisiin keskusvarastoon valtavaan rykelmään ilman järjestystä.

Data laken haaste on sen edun toinen puoli; kun kirjat ovat isossa kasassa sekaisin, niitä ei löydä sieltä oikein millään. Ja koko homman pointti on niiden löydettävyys.

Mike Ferguson hylkää siksi nämä kummatkin tavat toimimattomana.

Dataa on vain liikaa

Toki tietovarastoja ja -altaita tarvitaan, mutta ne ovat  Miken skenaariossa paikallisia, tietyn alueen datan säilytyspaikkoja.

Miken mielestä nykyisin on muutenkin hieman epärealististista puhua näistä ”kaiken datan ” keskusvarastoista, koska niitä ei kuitenkaan oikeasti voida toteuttaa korporaatiomaailmassa.

Miksi ei? Tähän on pari syytä.

Ensinnäkin, kun puhutaan kaikesta datasta, niin täytyy ottaa huomioon, että sitä muodostuu valtavan paljon (ns Big Data). Kaikki nettitapahtumat, laitteiden toiminta, teksti, kuva ja ääni.

Ennen tietovarastojen käyttö perustui vain CRM:n ja ERP:n tapaisten perusjärjestelmien datan analysointiin. Dataa oli vielä suhteellisen vähän, samoin järjestelmiä.

Yhä nykyisinkin tietovarasto on perusdatan talletukseen raportointia varten ylivertainen arkkitehtuuri. Mutta isoa määrää eri muotoista dataa yhä laajenevasta joukosta eri lähteitä on epäkäytännöllistä säilöä tietovarastoon.

Data lakeen voi teoriassa kopioida hyvin paljon eri tyyppistä dataa, mutta siellä on sitten kukin data omissa poteroissaan, tavallaan sekaisin.

Ja jos sotkua haluaa järjestää, niin pitäisi olla paljon todella paljon  koodareita hommissa.

Käytännöllisempi vaihtoehto on rakentaa sen päälle tietovarastotyyppistä taulurakennetta. Ja sekin juuri todettiin hyvin työlääksi toimenpiteeksi, jos lähteitä on paljon.

Jo pelkkä datan määrä tekee ajatuksen kaiken datan keskusvarastoimisesta absurdiksi  joka tapauksessa.

Ei ole mitään järkeä varastoida ja työstää jokaista netin raksahdusta vain siksi, että ehkä sitä voi joskus ehkä tarvita.

Sitten  on vielä toinen käytännön syy: GDPR ja muut regulaatiot. Ajatellaan että meillä on kansainvälisesti toimiva Yhdysvaltalainen yritys, niin voiko se tuoda kaiken henkilödatan esim Euroopan tytäryhtiöistä Yhdysvaltoihin keskusvarastoon?

Pelkkä ajatus saa GDPR asiantuntijat näkemään punaista. Vain kuolleen ruumiini yli, he sanovat.

Datan käsittelylle on eri maissa eri sääntöjä ja on liian suuri vaiva ruveta taistelemaan tätä vastaan.

Mikellä on kuitenkin ajatus.

Datatuotteet

Hänen teesinsä perustuu siihen, että tehdään edelleen tietovarastoja ja altaita kuten ennenkin, mutta ne ovat enemmän paikallisia ja tulevat tiettyyn liiketoimintatarpeeseen.

Aina kun tulee jokin liiketoimintatarve, vaikkapa tietyn tuotesegmentin katteen laskeminen, dataa ruvetaan tuomaan ja järjestelemään. Tästä syntyy ns datatuotteita.

Kirja, joka on hyllyssä löydettävissä on ns ”kirjatuote”.

Esim tietovarastoon tuotu on data on datatuote, koska se on käsitelty ja valmiina hyödynnettäväksi.

Tämä muodostaa iteratiivisen prosessin, jossa datatuotteita valmistuu erissä ja niitä uusiokäytetään.

Mike esittää siis radikaalin ajatuksen. Ei pyritä enää keskusvarastoon. Annetaan datan (tai aikakin ison osan siitä) olla siellä missä se syntyy.

Miken naulaa tähän keskeisen tärkeät kolme konseptia:

1. Datakatalogin (data catalog) avulla tiedämme missä datat ovat

2. Käsitemallien (conseptual data models) avulla ymmärrämme ja kuvaamme datavarantomme ja dokumentoimme datatuotteet uusiokäyttöä varten

3. Datan virtualisoinin (Data Virtualization) avulla voimme yhdistää ja tutkia eri paikoissa olevaa dataa tuomatta sitä keskusvarastoon.

Datan virtualisoinnin avulla eri paikoissa olevat datat saadaan näkymäkerroksen kautta yhdistettyä ja näyttämään siltä, että ne olisivat keskitettynä tallessa ja kyseltävissä.

Jos näiden kolmen avulla ymmärrämme datamme, tiedämme tasan tarkkaan missä ne sijaitsevat ja pääsemme niihin käsiksi, tarvitaanko keskusvarastoa enää lainkaan?

Tietovarasto- ja altaat eivät ole itseisarvo

Kysyin Arilta, että mikä tässä on yleinen konsensus ja että ja romuttaako ajatus koko hänen filosofiansa?

Ari oli sitä mieltä, että datan hyödyntäminen ja siihen käsiksi pääseminen on päämäärä ja tavoite.

Pointti on se, että kun dataa tarvitaan esim johdon raportointiin, analytiikkaan tai tekoälyyn, se olisi käytettävissä nyt, eikä vuoden päästä.

Tietovarastot ja alustat vain keinoja lopullisen tavoitteen saavuttamiseksi, eivät itseisarvo.

Onko tietovarasto ja data lake  sitten kuolleita konsepteja?

Eivät ne ole, kuten yllä todettiin. Jopa Facebookilla ja Uberillä on ne kummatkin, rinta rinnan.

Ja Ari hyppisi toimistollamme seinille jos väittäisin julkisesti tietovarastojen- ja altaiden olevan nykyisin käyttökelvottomia.

Eli:

Data lakea tarvitaan isojen datamäärien tallennuspaikaksi, ja tekoälyn kehittämiseen sen tyyppinen ratkaisu on pakko olla.

Se on suorastaan mahdollistanut tekoälyn viimeaikaiset kehitysloikat.

Data lake soveltuu myös datatutkimukseen (data science) ja muuhun  ad hoc-tyyppiseen data-analyysiin.

Tietovarasto yhdistää hajallaan olevat datat ja soveltuu tyypillisten tietotarpeiden tyydyttämiseen, kuten taloustietojen analysointiin. Lisäetuja ovat käyttäjäystävällisyys ja hyvä vastausaika.

Tietovaraston dataa voivat siis hyödyntää muutkin kuin ohjelmoijat ja data scientistit, koska kaikki maailman BI-työkalut toimivat sen kanssa.

Arin ja Miken arkkitehtuuriratkaisuissa on usein sekä tietovarasto- sekä allas, koska ne täydentävät toisiaan.

Mutta kaiken datan keskusvarastoksi niistä ei ole.

Aatteena keskusvarasto

Mike ajatus on siten ehkä todennäköisin skenaario tulevaisuuden arkkitehtuureista.

Tämä on kaikki vielä uutta, eikä varmasti kukaan voi sanoa että näitä on tullut tehtyä useampia. Monet näistä teknologioista ovat myös kehittyneet vasta viime aikoina.

Me olemme nyt tekemisissä data virtualisointi toteutusta kanssa parin organisaation kanssa, kirjoitamme niistä lisää tuonnempana.

Myös Data catalog -tuotteet tulevat nyt vauhdilla ja niiden odotetaan lyövät läpi lähiaikoina.

Ellie on nostanut konseptuaalisen datamallinnuksen uudelle tasolle ja sen käyttäjien määrä kasvaa nyt vauhdilla.

Mietin tätä kaikkea yksi päivä ollessani lenkillä. Tuli mieleen, että onko ajatus kaiken datan keskusvarastosta enemmänkin abstrakti konsepti, kuin fyysinen toteutus?

Se on kuten demokratia, vapaus ja tasa-arvo. Ne ovat aatteita joka materialisoituvat lainsäädännössä, hallinnossa sekä käytännön tekemisessä.

Samaan tapaan keskitetty datavarasto on asenne ja ideologia.

Se edellyttää organisaatiotason datan hallinnan käytäntöjä ja prosesseja, mutta myös ymmärrystä datan hyödyntämisen merkityksestä.

Minusta ns pyrkimys data driven -kulttuuriin on itse asiassa paljon tärkeämpi päämäärä kun datan tuominen fyysisen keskusvarastoon.

Jos datakulttuuri (tai datakeskeinen ajattelu, kuten Ari sitä kutsuu) on vahva,  ihmiset kyllä keksivät konstit datan tuomiseksi saataville, oli se sitten varastointia tai virtualisointia.

If there is a will, there is a way -sanonta pätee tähänkin erittäin hyvin.

Hyvää datakeskeistä loppuviikkoa kaikille!

T. Johannes Hovi

PS. Kannattaa katsastaa tämä, mikäli halajaa kokonaisvaltaisen näkemyksen tiedonhallintaan:

Data Management Fundamentals and DAMA certification preparation 30.09.2019 – 02.10.2019

Isot kansainväliset organisaatiot soveltavat usein DAMAN DMBOK -viitekehystä tiedonhallintaan. Sen tunteminen onkin suotavaaa kaikille tiedonhallinnan ammattilaisille.

DAMA:n tiedonhallinnan sertifikaateista (CDMP) vastaava Vice President Chris Bradley tulee nyt Suomeen kouluttamaan aiheesta.

Voit suorittaa samalla sertifointikokeen, joskin se ei ole välttämätöntä osallistumisen kannalta.

Se toimiii myös läpileikkauksena tiedonhallinnan maailmaa kattaen kaikki sen keskeiset osa-alueet.

Listä tiedot ja ilmoittautuminen tästä

Saattaisit olla kiinnostunut myös näistä

Lähestymistapoja dataosaamisen kehittämiseen

Lue lisää

Tiedon elinkaari ja tiedonhallinta

Lue lisää

Tietovaraston paras arkkitehtuuri

Lue lisää