Älä leiki Data Lakella

Kirjoittelin taas hieman ajatuksia erään konsultointitoimeksiannon innoittamana. Onko Data Lake tiedonhallinnan Graalin malja? Onko se jotain, joka pelastaa meidät datan siiloutumisen ongelmilta jatkossa kokonaan? Hyviä lukuhetkiä!

Data Lake on hype-termi, josta monet nyt puhuvat. TDWI Finlandin tilaisuudessa puhuneen Barry Devlinin tutkimuksessa yli puolet haastatelluista yrityksistä käyttää tai harkitsee Data Lakeen siirtymistä. Toisaalta uskon, että kaikki vähänkään isommat organisaatiot tulevat hyödyntämään uusia teknologioita ennemmin tai myöhemmin.

Data Lake rinnastetaan usein Hadoopiin. Idea on, että Data Lakeen voidaan nopeasti ja helposti tallettaa paljon dataa eri lähteistä. Talletustilan hinnan laskettua nyt huomattavasti ajatuksena on tallettaa ”kaikki tiedot” data lakeen. Siellä ne nyt ovat, kaikki halukkaat vaan käyttämään.

Tämähän on monien tiedonhallinnan ammattilaisten haaveiden toteuma: kaikki tiedot ovat nyt käsillä, päätöksenteon tukena.

Mutta katsotaanpa vähän lähempää. Tiedot tuodaan Data Lakeen raakana, samassa muodossa kuin ne ovat tietolähteessä. Juuri tämä mahdollistaa nopean latauksen Data Lakeen. Vaikka tässä käytetään usein termiä integrointi, tietoja ei kuitenkaan yhdistetä toisiinsa, ei siis tehdä mitään käsittelyjä tietojen yhdistämiseksi toisiinsa. Integrointi tarkoittaa tässä vain latausta.

Hetkinen, me tietovarastoihmisethän olemme vuosia tuoneet dataa raakamuodossa staging arealle eli lastauslaiturille. Mutta sitten olemme suunnitelleet ja mallintaneet tietovaraston, johon tiedot tuodaan samalla integroiden eli yhdistäen toisiinsa. Nyt voidaan saada helposti vaikkapa asiakkaan 360 asteen näkymä. Liitetään asiakkaaseen valmiiksi kaikki asiakkaan palvelut, tilaukset, klikkausdata jne. Kun saadaan uusi tietolähde asiakkaasta, kytketään se mukaan.

Esimerkiksi Data Vault on hyvä menetelmä tähän. Tiedot pidetään raakamuodossa mutta integroidaan valmiiksi ja huolehditaan tietojen historioinnista. Tämä helpottaa suuresti tietojen hyödyntämiskerrosta, kun ei tarvitse tehdä yhdistelyjä aina uudestaan.

Data Laken suuri etu on, että sinne on nopeaa ja kustannustehokasta tallentaa kaikki tiedot raakamuodossa. Hadoop-kouluttajamme Karri Pulkkinen arvioi, että jatkossa jopa 95% datan volyymistä tulee sensoreista, mittauksista, ei-strukturoidusta yms. datasta. Juuri tällaiselle tiedolle Data Lake onkin toimiva ja edullinen ratkaisu.

Se että kätevästi dumppaamme dataa Data Lakeen ei kuitenkaan taianomaisesti poista tarvetta ymmärtää ja mallintaa omista sovelluksistamme saatavaa perusdataa. Aivan käsittelemätön raakadata on liian hankalaa käsiteltäväksi ja yhdisteltäväksi jokaista tuotannollista ja tärkeää tietotarvetta varten aina uudestaan. Ajatuksella mallinnettu tietovarasto helpottaa ja nopeuttaa suuresti tiedon tulevaa käyttöä.

Data Lake on todella hyvä kehitys ja sille on tärkeä rooli modernin Data Platformin perustana, etenkin pilvipalveluna toteutettuna. Kunhan vain muistamme, että tuotannolliseen raportointiin ja analyysiin tarvittavat perustiedot on edelleenkin mallinnettava ja oikeasti integroitava. Tulevaisuuden uuden datan volyyymit moninkertaistuvat nykyisestä ja Data Lake on oivallinen tapa varautua tähän.

Älä leiki Data Lakella

Saattaisit olla kiinnostunut myös näistä

Tiedonhallinnan alueen suuria nimiä

Uudistamme laajasti Ari Hovin koulutuksia ja toimintaa

Vältä hypetystä ja irrallisia valintoja, kun kokoat teknologista työkalupakkia vaihtoehtojen valtamerestä