22.09.2020

Data Vaultin käyttö vaatii osaamista

Hei,

Kerron tässä tietovaraston suunnittelusta, etenkin tärkeästä Data Vault -ajattelusta. Käydäänpä aluksi läpi vähän perusrakenteita.

 

Ensisijaista ja toisiokäyttöä

Julkishallinnossa puhutaan lainmuutoksen myötä tietojen toissijaisesta käytöstä.

Ensisijainen käyttö tarkoittaa operatiivisten perusjärjestelmien pyörittämistä, esimerkiksi potilaan hoito.

Toissijainen käyttö on vihdoin tunnustettu ja nimestään huolimatta laajempi alue, käsittäen tutkimuksen, tilastoinnin, tietojohtamisen ja muita hyötyjä mitä kootusta datasta saadaankaan.

Tässä tarvitaan mm. tietoalustaa, tietoallasta ja tietovarastoa tietojen tutkimiseen, analyyseihn ja raportointiin.

Tässä blogissa keskityn siihen miten Data Vault -tietovarasto suunnitellaan.

 

Tietoallas

Tietoallas (Data Lake) koostuu tiedostoista, kuten koneesi c-levy. Helppo ja edullinen tallentaa exceleitä, lokeja , kuvia, mitä tahansa ja myös isoja massoja.

Tietoallas sopii tukimuskäyttöön ja datan kertaluontoiseen analyysiin.

Työ on teknistä ja monimutkaista, siksi tekijöinä ovat kovat koodarit. Asiakas ja lasku – tai potilas ja labratulokset – ovat kaukana toisistaan ja on tutkittava erikseen miten ne voi yhdistää.

On hankalaa  ja suhteellisen tyyristä luoda tällä käytännöllä päivittäistyyppistä, luotettavaa raportointia ja analytiikkaa.

 

Tietovarasto

Päivittäistä, toistuvaa ja laadukasta raportointia varten rakennetaan tietovarasto (Data Warehouse).

Se on toisiinsa liittyvistä tietokantatauluista koostuva relaatiokanta. Asiakas-tauluun on liitetty valmiiksi lasku – ja potilaaseen labratulokset – ja niiden hakeminen on siis helppoa ja hyvin kustannustehokasta.

Tietovarastoja käytetään siksi toistuvaan, laadukkaaseen raportointiin ja analytiikkaan.

Moderneissa tietoalustaratkaisuissa (Data Platform) on sekä tietoallas että tietovarasto.

Tietoaltaalle tuodaan raakadata ja sitä käytetään tutkimustyyppisiin kertaluonteisiin analyyseihin. Valikoidut tietoaltaan tiedot  ladataan helppokäyttöisempään tietovarastoon.

Jostain syystä osa mieltää tietoaltaat ikään kuin moderniksi versioksi tietovarastosta, mitä se ei suinkaan ole. Käyttötapaukset poikkeavat ja kummallekin on oma paikkansa.

 

Miten suunnitella

Tietoallasta ei suunnitella etukäteen. Sinne kopioidaan tiedot suoraan lähtöjärjestelmien tietokannoista.

Dataa on paljon, mutta käyttö vaikeaa sellaiselle käyttäjälle, joka ei omaa laajaa teknistä osaamista.

Tietovaraston SQL -kanta puolestaan suunnitellaan etukäteen.

Näin taulujen kyseleminen ja käyttäminen raportoinnissa ja analyyseissä on huomattavasti helpompaa kun tietoaltaan.

BI-työkalut sopivat hyvin yhteen tietovarastojen kanssa.

 

Data Vault rules

Data Vault 2.0 -menetelmä on kovassa huudossa nyt Suomessakin.

Sen kehittäjä Dan Linstedt on kansainvälisesti tunnettu auktoriteetti, pitkäaikainen tuttavani ja yhteistyö- ja kouluttajakumppanimme.

Data Vaultin etuja ovat mm. selkeä arkkitehtuuri isoille tietovarastoille, nopea laajennettavuus ja tietojen historiointi.

Käytetään tiettyjen sääntöjen mukaan taulutyyppejä,  joita ovat  hubi, satelliitti ja linkki.

Menen myöhäisemmässä blogissa syvemmälle tähän.

 

Data Vault -suunnittelu tärkeää

On kaksi tapaa suunnitella Data Vault -tietovaraston rakenne.

Kutsun ensimmäistä menetelmää lähtöjärjestelmäpohjaiseksi ja toista liiketoimintapohjaiseksi.

Lähtöjärjestelmäpohjaisessa menetelmässä tietovaraston Data Vault -rakenne johdetaan suoraan ensiokäytöstä eli lähtöjärjestelmien tietokantarakenteista.

Kuten jo totesin, ne ovat usein teknisiä ja monimutkaisia rakenteeltaan.

Tämä on hyvin IT-lähtöistä. IT-henkilöt, usein konsultit tekevät mallinnuksen itsenäisesti, ei juurikaan keskustella liiketoiminnan kanssa.

Etuna on näennäinen nopeus alussa.

Lopputuloksena syntyvä sekava Data Vault-rakenne aiheuttaa sitten jatkuvia ongelmia.

IT-lähtöisillä toteutuksilla ilman liiketoiminnan näkemystä on huono track record, niin tässä kuin muillakin alueilla.

IT-henkilöiden lause tietovarastosta ”we build it and they will come” ei toimi.

Dan Linstedt varoittaa lähtöjärjestelmäpohjaisesta menetelmästä:  ”It is wrong because it holds no business value”.

 

Liiketoiminnan näkemykset keskiöön

Liiketoimintalähtöinen Data Vault -suunnittelu lähtee liiketoiminnan näkemyksistä, ei järjestelmien sisäisistä rakenteista.

Parhaiten tämä sujuu tekemällä käsitemallinnusta heidän kanssaan. Ellie-mallinnustyökalu on suunniteltu juuri tähän tarkoitukseen ja siksi käyttäjät pitävätkin siitä niin paljon.

Näin selvitetään keskeisen tärkeät master-käsitteet, kuten asiakas, tuote, työntekijä, potilas, organisaatioyksikkö.

Sekä tärkeät tapahtumat, kuten tilaus, toimitus, toimenpide, mittaus, vientitapahtuma. Ja vielä sopimustyyppiset, kuten tili, projekti, hoitojakso tai kampanja.

Samalla paljastuvat myös aidot liiketoiminta-avaimet (business keys).

Niitä ovat esim hetu, y-tunnus, laskun numero, kohdenumero, tuotekoodi, asiakasnumero.

Dan Linstedt korostaa liiketoiminta-avainten tunnistamisen merkitystä Data Vault -ratkaisun ytimenä.

Lisäksi käsitemallinnuksessa selvitetään käsitteiden määritelmät sekä niiden väliset relaatiot, kuten miten lasku liittyy asiakkaaseen tai toimenpide hoitojaksoon, potilaaseen ja diagnoosiin.

 

Kokonaisuus on pidettävä hallinnassa

Juuri tietovarasto on se paikka, jossa hajallaan olevat asiakas- tai potilastiedot tuodaan yhteen.

Nyt saadaan esim. pankin asiakkaan tilit tilijärjestelmästä, lainat lainajärjestelmästä, salkut arvopaperijärjestelmästä, valmiiksi yhdistettynä.

Tai potilaan rokotus-, laboratorio-, diagnoosi-, resepti- ja toimenpidetiedot eri puolilta koottuna yhteen.

Homma ei pysy hallinnassa ilman hyviä piirustuksia ja dokumentteja, eli käsite- ja tietomalleja.

Lopputuloksena syntyy monia tietotarpeita palveleva, ymmärretty ja dokumentoitu tietovarasto, joka tukee sekä satunnaisia tietotarpeita että säännöllistä, määrämuotoista raportointia.

Käsitemallipohjaisuus sekä Data Vault -rakenne mahdollistavat myös tietovarasto joustavan laajentamisen.

Käsitemallit ovat arvokkaita, joten ne kannattaa säilyttää, mieluiten pilvessä ja helposti löydettävissä, kuten asianlaita on juuri Elliessä.

Mieti esimerkiksi näitä muutostilanteita: tietovaraston toimittajan vaihtuminen, liiketoiminnan muutos, lähtöjärjestelmien vaihtaminen, yritysfuusio – you name it.

 

Tietoaltaat ja mallintaminen

Aiemmin totesin, että tietoaltaita ei suunnitella, sinne vaan talletetaan lähtöjärjestelmädataa sellaisenaan.

Ehdottaisin kuitenkin tällekin alueelle erillistä mallinnusta ymmärryksen lisäämiseksi ja sen välttämiseksi, että data scientistit joutuvat toistuvasti mallintamaan samaakin dataa eri käyttötapauksia varten (tietovarastossahan mallinnus tehdään kerran).

Käsitemallikouluttajamme Alec Sharp kertookin, että keskieuroopassa hänen Data Modeling -kurssillaan käy paljon data scientistejä ja big data väkeä.

 

Lopuksi

Tietovarastoinnin sekä altaiden rankentamiseen liittyvät työkalut, teknologiat ja menetelmät ovat kehittyneet huimaa vauhtia viime aikoina. Ne voidaan toteutta nykyisen hyvin nopeasti, pala kerrallaan ja paljon pienemmin kustannuksin kun ennen.

Nyt kun Suomessakin Data Vault 2.0 -menetelmä on kovassa kasvussa, kannattaa kuunnella Dan Linstedtin neuvoja ja lisäksi vielä kouluttautua tähän menetelmään.

Pelkkä datan kokoaminen IT-lähtöisesti ei vielä auta liiketoimintaa.

Vain se data, jonka sekä liiketoiminta että IT-henkilöt ymmärtävät ja joka on kuvattu – siis mallinnettu – on oikeasti hyödyllistä.

Ystävällisin terveisin,

Ari Hovi

Ps. Tarjoamme Data Vaultiin liittyen kahta eri koulutusta:

Data Vault 2.0 Bootcamp + Certification

Kolme päivää tiukkaa asiaa ja mahdollisuus suorittaa arvostettu, menetelmän kehittäjän Dan Linstedtin auktorisoima sertifointikoe. Varmista, että tietovarasto-osaaminen on kunnossa ja hanki sertit koko tiimille – Syksyn koulutukset ovat pian täynnä, kannattaa varata paikat nyt nopeasti!

Lisätiedot ja ilmoittautuminen tästä

Data Vault -johdanto

Tämä pävän tehopaketti sopii kaikille Data Vaultista kiinnostuneille sekä tietovarastoprojektissa työskentelevälle. Kaikkien data-ammattilaisten on hyvä olla tietoinen tästä menetelmästä, joka on vallannut maailman myrskyn lailla.

Lisätiedot ja Ilmoittautuminen tästä

 

Saattaisit olla kiinnostunut myös näistä

Datan hallinta

Data Vault 2.0 Bootcamp + Certification

Lue lisää
Datan hallinta

Data Vault -johdanto

Lue lisää