Hei, Kirjoittelin asiasta, josta minulta usein kysytään: mikä on tietovaraston rooli tulevaisuudessa? Minulta kysytään usein myös Data Vaultista ja nämä kaksi liittyy luonnollisesti hyvin yhteen. Hyviä lukuhetkiä!
Miten rakentaa tulevaisuuden vapausasteet maksimoiva tietovarastoratkaisu?
Moni on nyt miettimässä uusia tietovarastoratkaisuja, kun olemassa olevien ratkaisujen teknologia tai arkkitehtuuri alkaa olla vanhentunutta. Nyt kannattaa suunnitella laajempaa arkkitehtuuria, ns. Data Platform -ratkaisuksi. Tämä tarkoittaa laajennettua tietovarastoa, jossa relaatiokannan lisäksi on Data Lake -tyyppinen ratkaisu.
Data Platform tukee perinteistä raportointia ja analyysiä, mutta myös monia muita alueita. Idea on, että kun organisaation kruununjalokivet ei data saadaan nyt omiin käsiin ja hallintaan, voidaan kaikkea tätä dataa nyt käyttää nopeasti uusiin tarpeisiin. Niitä ovat esimerkiksi data-aineistojen luovutukset, digitalisaatioon liittyvät uudet palvelut sekä jatkossa tekoälytyyppiset sovellukset.
Data Platform- ratkaisut ovat aina kohtuullisen isoja hankkeita ja investointeja, joten on syytä varoa suljettuja ja mahdollisesti vanhenevia ratkaisuja. On myös voitava rakentaa pala kerrallaan ja saada nopeasti tuloksia. Erilaiset ohjelmistot ja työkalut kehittyvät nyt kovaa vauhtia. Työkalut eivät kuitenkaan ratkaise perusongelmia
Data Platform ei ole ”one size fits all” -ratkaisu. Arkkitehtuurin valinta riippuu tavoiteltavan Data Platformin koosta ja myös datan rakenteiden kompleksisuudesta. Jos seurataan vain myynti- ja taloushallinnon datoja, rakenteet ovat yksinkertaisia ja ratkaisu voi olla kevyempi. Useimmilla alueilla tietojen rakenne on nykyisin monimutkaisempaa, jolloin tarvitaan normalisoitua, laajennettavissa olevaa tietovaraston rakennetta.
Data Vaultin rooli Data Platformissa
Jos kyseessä on laaja, vähitellen kasvatettava ja useiden lähtöjärjestelmien datoja yhdistävästä Data Platform, kannattaa tutustua Data Vault -menetelmään. Data Vault ei ole mikään tuote, vaan ohjeistus laajan tietovaraston rakentamiseksi. Mallin kehittäjä Dan Linstedt on samalla uudistanut koko tietovaraston taustalla olevaa ajattelutapaa.
Data Vaultin keskeinen osa on mallinnusmenetelmä, jossa tietokannan taulut jaetaan kolmeen tyyppiin: hubeihin, satelliitteihin ja linkkeihin. Menetelmä vaatii perehtymistä, mutta etuna on hyvä johdonmukaisuus ja selkeys – asioita jotka myös nopeuttavat datojen lataamista. Ns. Business Data Vault on nerokas tapa tallettaa johdettuja tietoja ja tunnuslukuja osana Data Vaultin rakenteita.
Data Platformia voi Data Vaultia käytettäessä laajentaa kuin lisäsi legopalikoita rakennelmaan. Perinteisessä tietovarastoinnissa tietovaraston laajentaminen on usein hankalaa, sillä samalla on muutettava jo tuotannossa olevia tietokannan osia sekä niiden latauksia. Tuottavuus paranee huikeasti, kun tietovarastoa voi laajentaa pala kerrallaan koskematta jo tuotannossa oleviin osiin.
Data Vault sopii hyvin ketterään, vaihe kerrallaan etenevään toteutukseen. Ketterään toteutukseen sisältyy kuitenkin suuri riski. Jos ylätason käsitemallinnus jää tekemättä ja Data Platformia rakennetaan palastellen esimerkiksi lähdejärjestelmä kerrallaan, on suuri vaara, että Data Platformistakin tulee siiloutunut. Lopuksi huomataan, että esim. asiakastiedot ovatkin siellä moneen kertaan.
Asemakaavan laadinta
On siis tärkeää laatia ensin kokonaismalli Data Platformista, ns. asemakaavatasolla, joka antaa helikopterikuvana kokonaiskäsityksen Data Platformiin halutuista datoista. Asemakaavaan edetään laatimalla ensin keskeisten lähtöjärjestelmien omat käsitemallit. Iso työ, kuulen monen ajattelevan. Näitä malleja ei kuitenkaan tarvitse tehdä aivan tarkalla attribuuttitasolla. Lisäksi työ voidaan tehdä nopeasti noudattamalla tehokkaita menetelmiä (kuten kehittäämäni Hovi Data Framework-menetelmää).
Asemakaava-malli paljastaa keskeiset, yhteiset masterdata -tiedot. Kun esimerkiksi ensimmäisessä hankkeessa viedään henkilöstö- ja organisaatiotietoja tietovarastoon, ne sitten ovat siellä ja seuraavat sprintit pääsevät niitä jo käyttämään. Näin Data Platformiin kertyy alusta saakka yhteiskäyttöisiä osia, jotka nopeuttavat työtä huomattavasti.
Suositukseni on siis edetä Data Vault-malliin asemakaavatasoisen käsitemallin mallin kautta. Tämä kartoitus liiketoiminnan kanssa kannattaa tehdä hyvin, koska se lopulta ratkaiseen Data Platformin laajuuden ja toimivuuden.
Data Lake osana Data Platformia
Datat voidaan jakaa karkeasti kahteen osaan: perinteisempi small data ja uudempi big data. Small data tulee yleensä omista perusjärjestelmistä, kuten ERP:stä tai CRM:stä. Small data on edelleen varsin pientä volyymiltään ja rakenne on strukturoitua.
Big data on usein ei-strukturoitua, se tulee monista eri lähteistä kuten sensoreista, laitteista, netistä jne. Usein puhutaan datan määrän nopeasta kasvusta, mutta uutta on myös lähteiden määrän nopea lisääntyminen.
Data Lakella tarkoitetaan talletusalustaa, johon voidaan tallettaa kaikenlaista ei-strukturoitua tietoa, JSON-muotoista dataa, tekstiä, kuvia, videoita jne. Teknisenä ratkaisuna on usein Hadoop. Kustannusten pudottua dataa on nyt varaa tallettaa laajasti. Data Platformissa Data Lake toimii mm. lastauslaiturina ja uusien big data -aineistojen talletuspaikkana.
Eikö tarvitse enää mallintaa?
Data Lake -hypetyksessä puhutaan usein siitä, että dataa ei enää tarvitse mallintaa. Heitetään vaan datat sisään ilman malleja ja aletaan käyttää. Tarkastellaanpa hetken väitettä.
Kun uusia tietolähteitä tulee nopeassa tahdissa, emme ehdi tai pysty mallintamaan näitä tietoja ja ne on parasta vain tallentaa Data Lakeen. Data scientistit voivat nyt tutkia tuota dataa ja tehdä analyysejä. Jotta dataa voi analysoida, tullaan samalla tehneeksi jonkinlainen datan mallinnus. Tämä on se kuuluisa schema on read. Data scientistit tekevät luovia koeasetelmia ja hakevat uusia yhteyksiä datasta. Osa näistä halutaan siirtää kokeilualustoilta tuotantoon.
Tuotantoon siirrettäessä data mallinnetaan huolellisesti ja tietovarasto- ja BI -ammattilaiset ottavat ne mukaan päivittäisiin, laatua tarkistaviin ajoketjuihin. Uudet löydökset ovat nyt osana BI-valikoimaa.
Voidaan puhua Top Down ja Bottom Up -tyyppisestä mallinnuksesta. Liiketoimintakäsitteet (asemakaava) pitää aina mallintaa, jos niitä halutaan analysoida. Et voi analysoida asiakasdataa, jollei termiä asiakas ole määritelty (mukaan lukien tietysti muutkin käsitteet). Juuri siksi tarvitaan käsitemallinnusosuus liiketoiminnan kanssa, ennen Data Vault -mallinnusta. Bottom Up -mallinnus puolestaan on kokeilevaa ja tuottaa uutta näkemystä liiketoimintaan. Kumpaankin tarvitaan, rinnakkain.
Uusi, big data voi olla kokonaisvolyymiltään jopa 90 % kaikesta datasta. Näin voidaan sanoa, että suurinta osaa datasta ei enää mallinneta, aikanaan aluksi. Mutta perinteinen small data on edelleen vähintään yhtä tärkeää kuin ennen, ja se on syytä mallintaa hyvin. Käsitemallinnus ja Data Vault ovat moderniin Data Platformiin hyvä yhdistelmä.
Älä hylkää vanhoja toimivia ratkaisuja
Nyt kun toisaalta tuotteiden ja toisaalta yleisen hypen vuoksi kehitys on kovaa, on kiusaus ajatella, että kaikki perinteinen tietovarastoajattelu on nyt vanhentunutta ja se voidaan hylätä. Viisaus onkin siinä, että osaa edelleen hyödyntää käyttökelpoiset osat hyväksi koetuista menetelmistä ja täydentää niitä uusilla hienoilla innovaatioilla.
Data Vaultin käytön leviämistä on aiemmin haitannut se, että osaajien puutetta on pidetty riskinä. Nyt osaamista on kuitenkin jo enemmän tarjolla. Olemme järjestäneet jo neljä Data Vault -sertifiointikoulutusta, jossa kouluttajana on mallin kehittäjä yhdysvaltalainen Dan Linstedt. Yhä useammassa tarjouspyynnössä edellytetään nyt Data Vaultin osaamista. Jos CV: ssäsi ei vielä ole Data Vault -sertifikaattia, niin nyt on jälleen mahdollisuus osallistua Danin kurssille.
Katso lisätiedot alta ja hyödynnä Early Bird tarjous – 20 % ennen 30.6.2017 ilmoittautuneille.
Data Vault 2.0. Bootcamp + Certification
04.09.2017 – 06.09.2017 Scandic Marina Hotel, Katajanokanlaituri 7, Helsinki 3 000 € + alv Lisätiedot ja ilmoittautuminen tästä
Tarjoamme nyt – 20 % kaikista ensi syksyn koulutuksista Early Bird -tarjouksena 30.6.2017 asti. Käytä tilauksen yhteydessä koodia: Syksy2017_EarlyBird. Tutustu kursseihin tästä