Älä leiki Data Lakella

Kirjoittelin taas hieman ajatuksia erään konsultointitoimeksiannon innoittamana. Onko Data Lake tiedonhallinnan Graalin malja? Onko se jotain, joka pelastaa meidät datan siiloutumisen ongelmilta jatkossa kokonaan? Hyviä lukuhetkiä!

 

Data Lake on hype-termi, josta monet nyt puhuvat. TDWI Finlandin tilaisuudessa puhuneen Barry Devlinin tutkimuksessa yli puolet haastatelluista yrityksistä käyttää tai harkitsee Data Lakeen siirtymistä. Toisaalta uskon, että kaikki vähänkään isommat organisaatiot tulevat hyödyntämään uusia teknologioita ennemmin tai myöhemmin.

Data Lake rinnastetaan usein Hadoopiin. Idea on, että Data Lakeen voidaan nopeasti ja helposti tallettaa paljon dataa eri lähteistä. Talletustilan hinnan laskettua nyt huomattavasti ajatuksena on tallettaa ”kaikki tiedot” data lakeen. Siellä ne nyt ovat, kaikki halukkaat vaan käyttämään.

Tämähän on monien tiedonhallinnan ammattilaisten haaveiden toteuma: kaikki tiedot ovat nyt käsillä, päätöksenteon tukena.

Mutta katsotaanpa vähän lähempää. Tiedot tuodaan Data Lakeen raakana, samassa muodossa kuin ne ovat tietolähteessä. Juuri tämä mahdollistaa nopean latauksen Data Lakeen. Vaikka tässä käytetään usein termiä integrointi, tietoja ei kuitenkaan yhdistetä toisiinsa, ei siis tehdä mitään käsittelyjä tietojen yhdistämiseksi toisiinsa. Integrointi tarkoittaa tässä vain latausta.

Hetkinen, me tietovarastoihmisethän olemme vuosia tuoneet dataa raakamuodossa staging arealle eli lastauslaiturille. Mutta sitten olemme suunnitelleet ja mallintaneet tietovaraston, johon tiedot tuodaan samalla integroiden eli yhdistäen toisiinsa. Nyt voidaan saada helposti vaikkapa asiakkaan 360 asteen näkymä. Liitetään asiakkaaseen valmiiksi kaikki asiakkaan palvelut, tilaukset, klikkausdata jne. Kun saadaan uusi tietolähde asiakkaasta, kytketään se mukaan.

Esimerkiksi Data Vault on hyvä menetelmä tähän. Tiedot pidetään raakamuodossa mutta integroidaan valmiiksi ja huolehditaan tietojen historioinnista. Tämä helpottaa suuresti tietojen hyödyntämiskerrosta, kun ei tarvitse tehdä yhdistelyjä aina uudestaan.

Data Laken suuri etu on, että sinne on nopeaa ja kustannustehokasta tallentaa kaikki tiedot raakamuodossa. Hadoop-kouluttajamme Karri Pulkkinen arvioi, että jatkossa jopa 95% datan volyymistä tulee sensoreista, mittauksista, ei-strukturoidusta yms. datasta. Juuri tällaiselle tiedolle Data Lake onkin toimiva ja edullinen ratkaisu.

Se että kätevästi dumppaamme dataa Data Lakeen ei kuitenkaan taianomaisesti poista tarvetta ymmärtää ja mallintaa omista sovelluksistamme saatavaa perusdataa. Aivan käsittelemätön raakadata on liian hankalaa käsiteltäväksi ja yhdisteltäväksi jokaista tuotannollista ja tärkeää tietotarvetta varten aina uudestaan. Ajatuksella mallinnettu tietovarasto helpottaa ja nopeuttaa suuresti tiedon tulevaa käyttöä.

Data Lake on todella hyvä kehitys ja sille on tärkeä rooli modernin Data Platformin perustana, etenkin pilvipalveluna toteutettuna.  Kunhan vain muistamme, että tuotannolliseen raportointiin ja analyysiin tarvittavat perustiedot on edelleenkin mallinnettava ja oikeasti integroitava. Tulevaisuuden uuden datan volyyymit moninkertaistuvat nykyisestä ja Data Lake on oivallinen tapa varautua tähän.

Jaa:

Kommentoi:

Kirjoittaja:

Ari Hovi

FM Ari Hovi toimii päätoimisesti konsulttina erikoisalueenaan Data Warehouse / Business Intelligence, käsitemallinnukset, tietoarkkitehtuurimallinnukset ja -määritykset sekä Business Intelligence / tietovarastoratkaisujen auditointi. Ari on Suomen kokeneimpia käsite- ja tiedonmallintajia (Data Modeling).

Ari on vetänyt uransa aikana yli sata käsitemallinnusworkshoppia ja ollut osallisena yli kuudessakymmenessä tietovarastohankkeessa. Tyypillisiä konsultointihankkeita ovat tietovarastojen arkkitehtuuri- ja strategiaselvitykset ja tietovarastojen tietosisällön mallinnus sekä yritystason tietoarkkitehtuurien ja Master Data -mallien laadinta.

Ari on myös tietokirjailija, teoksia aiheista Tietovarastointi, Tietokannan suunnittelu ja SQL. Hänen artikkeleitaan on julkaistu mm. TIVI-lehdessä, Kauppalehdessä ja Tietoasiantuntijat -lehdessä.

 

Haluatko uusimmat uutiset ja kurssitiedot Arihovista?

Tilaa uutiskirje

Tyrehdytä tiedonjanosi!

Uutiskirjeen tilaajana saat ajankohtaista tietoa datan hyödyntämisestä, tekoälystä sekä muista ajankohtaisista aiheista tiedohallinnan maailmasta. Olemme data-alan johtava kouluttaja ja konsultti, joten saat tietoa suoraan kentältä. Saat samalla myös parhaat tarjoukset kansainvälisten huppuasiantuntijoiden valmennustilaisuuksiin.