09.05.2016

Tähtimalli vai Data Vault?

Uusissa tietovarastohankkeissa on tärkeää valita hankkeeseen sopiva tietovaraston suunnittelumenetelmä. Nykyisn vertailtavaksi asettuvat usein dimensionaalinen tähtimallinnus ja uudenpi Data Vault -mallinnusmenetelmä.

Tähtimalli on näistä eniten käytetty menetelmä. Äskettäin eläkkeelle siirtynyt Ralph Kimball on tehnyt pitkän uran mallia kehittäessään, kouluttaessaan ja kirjoittaessaan siitä kirjoja. Suhteellisen yksinkertainen, osittain denormalisoitu dimensio- ja faktataulurakenne rakenne tukee hyvin niitä raportteja, joita varten se on suunniteltu.

Päävaihtoehto Kimballin dimensionaaliselle arkkitehtuurille on ns. Inmonilainen arkkitehtuuri, jossa mallinnus on perustuu kolmanteen normalimuotoon. Tietoja integroidaan monista eri tietolähteistä yhteiskäyttöiseen laajaan tietovarastoon. Menetelmä painottaa tietojen monipuolisten rakenteiden ja riippuvuuksien kuvaamista, ei niinkään yksittäisten raporttien tietotarpeita.

Data Vault –menetelmä kuuluu Inmonilaiseen, normalisoituun koulukuntaan ja siinä taulut jakantuvat kolmeen tyyppiin: hubit, satelliitit ja linkit.  Mallin luoja Dan Linstedt kertoo kehittäneensä sen nimenomaan yritystason tietovarastojen (EDW) mallinnusmenetelmäksi.

Data Vaultin tärkeimpiä etuja on helppo laajennettavuus. Uusia alueita voi lisätä pala palalta tietovarastoon koskematta jo toteutettuihin osiin. Laajennus tapahtuu siis lisäämällä uusia tauluja. Tähtimallinnuksen yksi hankaluus on juuri se, että tähtimalliston laajentuessa tulee usein tarve muuttaa jotakin jo tuotannossa jo olevaa dimensiota. Käy ajan mittaan hankalaksi ja kalliiksi muutella jo toimivia osia.

Yhä useammassa hankkeessa on lähtökohtana ketterä laajennettavuus ja muutosjoustavuus. Data Vault –malli onkin kasvattanut suosiotaan niin maailmalla kuin Suomessakin ja voikin sanoa, että uusissa tietovarastototeutuksissa se on jo suhteellisen yleinen. Hollanti on jostain syystä Data Vault –maa: sanotaan, että siellä 90% tietovarastoista tehdään tämän mallin mukaan.

Data Vault- malli muuttaa myös perinteistä ajattelua tietojen jalostamisesta. Totutusti tiedot tuodaan tietovarastoon mahdollisimman oikein, tarkastettuna ja jalostettuna helppokäyttöiseen muotoon. Data Vaultissa tiedot tuodaan raakamuodossa, tarkistamatta ja jalostamatta. Tiedot toki integroidaan eli yhdistetään toisiinsa ja historioidaan. Jos tiedot ovat perusjärjestelmässä väärin, niiden pitää olla samalla tavoin väärin myös tietovarastossa, siis samalla tasalla; tarkistaminen tehdään myöhemmin. Tästä on itse asiassa monta etua. Ensinnäkin tiedot pysyvät paremmin jäljitettävinä alkulähteelle. Toiseksi raakamuoto maksimoi tulevat mahdollisuudet tehdä erilaisia raportteja ja analyysejä. Kolmanneksi lataus on monimutkaisten käsittelysääntöjen puuttuessa nopeaa ja suoraviivaista, jopa automatisoitavissa.

Eikö raakamuoto ole huono raporttien teon kannalta, kuulen monen ajattelevan. Raportin teko suoraan Data Vaultin monista tauluista onkin haastavaa. Data Vault edellyttääkin ns. johdettujen datamarttien tekemistä. Datamartit voivat olla tähtimallin muodossa, kuutioita tai käteviä leveitä tauluja. Datamartit voivat olla fyysisiä tai virtualisoituja. Datamartteja on nopea rakentaa jo valmiiksi yhdistetystä yhdestä kannasta. Koska raakadata ja sen historiointi on Data Vaultissa, voi johdetun datamartin poistaa ja rakentaa tilalle toisen – ilman että tietoja menetetään. Ketterää.

Peruslatauksessa syntyneiden raakatietovaraston hubien, satelliittien ja linkkien jälkeen voidaan helposti muodostaa johdettuja, laskettuja ja jalostettuja tietoja. Nämä muodostavat Data Vault -taulujen päälle ns Business Data Vaultin, jota sitten voidaan käyttää monien datamarttien lähteenä.

Nykyaikaisella tietovarastolla on modernissa kokonaisarkkitehtuurissa laajempi rooli kuin perinteinen raportoinnin ja analytiikan tuki. Tietovarastosta toimitetaan aineistoja ulkoisille tahoille. Sen päälle voidaan rakentaa edullisesti digitalisaatioratkaisuja, vaikkapa asiakasportaaleja. Datahan on jo valmiiksi integroituna tietovarastossa, helposti saatavilla. Yleiskäyttöinen normalisoitu tietovarasto kuten Data Vault tukee näitä ratkaisuja paremmin kuin tähtimalli, jonka rakenteen ilmaisuvoima ei riitä näin monenlaisille tarpeille.

Suosittelen tutustumaan Data Vaultiin. Data Vault ei ole ratkaisu kaikkiin tietovarastohankkeisiin, mutta yhä useampi yritys rakentaa pala palalta laajentuvaa yhteistä tietovarastoa ja niitä varten Data Vault tarjoaa tutkimisen arvoisia etuja. Tähtimallinnuksella on tärkeä rooli raportoinnin tukena, mutta laajan tietovaraston päämallinnusmenetelmänä sen asemaa haastaa Data Vault yhä useammin.

Data Vaultin kehittäjä Dan Linstedt tulee Suomeen vetämään ainutlaatuisen Data Vault 2.0. Bootcamp Sertifiointikoulutuksen. Lisätiedot ja ilmoittautuminen tästä.

Saattaisit olla kiinnostunut myös näistä

Datan hallinta

Data Vault 2.0 Bootcamp + Certification

Lue lisää
Datan hallinta

Data Vault -johdanto

Lue lisää
Datan hallinta

Tietojen mallintaminen – Data Modeling

Lue lisää