Data Lakehouse -arkkitehtuuri yhdistää tietovaraston ja tietoaltaan vahvuudet
Data Lakehouse -arkkitehtuuri yhdistää tietoaltaan (data lake) ja tietovaraston (data warehouse) parhaat puolet yhdeksi yhtenäiseksi tietoalustaksi. Sen perusajatuksena on kaventaa perinteisen tietoaltaan ja tietovaraston välistä eroa siten, että kaikki data säilytetään samassa avoimessa ympäristössä, jolloin sekä strukturoitu että strukturoimaton data ovat helposti saavutettavissa ja käytettävissä eri työkalujen avulla ilman, että niitä tarvitsee siirtää alustalta toiselle. Data Lakehouse -alustoilla datan tallennustila ja prosessointiteho on eriytetty, mikä lisää kustannustehokkuutta ja skaalautuvuutta. Keskeisimmät markkinoilla olevat Data Lakehouseen pohjautuvat teknologiat- tai tuotteet ovat tällä hetkellä Microsoft Fabric, Databricks ja Snowflake.
Kerroimme Data Lakehouse -ratkaisusta perusteellisemmin ja vertailimme sitä tyypilliseen tietoaltaasta ja tietovarastosta koostuvaan kaksitasoiseen tietoarkkitehtuuriin kevään artikkelissamme Data Lakehouse -arkkitehtuuri. Mainitsimme myös uskovamme Data Lakehouse -arkkitehtuurin tulevaisuudessa yleistyvän entisestään uusissa data-alustatoteutuksissa. Haastattelimme tätä artikkelia varten Data Lakehouse -ratkaisuihin erikoistuneen Data Clinicin perustajajäseniä Tommi Penttilää ja Timi Lantelaa. Heillä on tuoretta kokemusta Lakehouse-projekteista Suomessa.
Projektien erilaiset lähtökohdat ja tarpeet
Organisaatioiden lähtökohtia Data Lakehouse -projekteihin voidaan kategorisoida kahdella tavalla. Toiset projektit ovat rakentuneet erityisesti organisaation omista toiminnan järjestelmistä tulevan tiedon ympärille, toisissa on ollut tarve hakea ja yhdistellä tietoa erityisesti ulkoisista lähteistä ja tarjoilla sitä sopivassa tietomallissa eteenpäin. Toinen jaottelu liittyy siihen, onko kyseessä olemassa olevan tietoalustan migraatio uuteen arkkitehtuuriin vai lähdetäänkö organisaatiossa rakentamaan tietoalustaa ensimmäisen kerran. Silloin, kun rakennetaan täysin uutta tietoalustaa, lähdetään usein liikkeelle yhdestä tietoalueesta, esimerkiksi myynnistä, ja rakennetaan myynnin tietoalusta, jota on mahdollisuus myöhemmin laajentaa muillekin alueille.
Migraatioprojekteihin lähteneillä organisaatioilla on usein ollut suunnitteilla tietoalustan uudistaminen jo pidemmän aikaa, mutta Data Lakehouse -arkkitehtuurin tarjoamat uudet kyvykkyydet ovat toimineet ratkaisevana sysäyksenä aloittaa projekti.
Data Lakehouse -teknologiat ovat SaaS-palveluita ja alusta itsessään kehittyy koko ajan. Asiakkaan ei tarvitse konfiguroida käyttöön pilvialustalta uusia palveluita, vaan ne ovat tuotteessa mukana alusta asti, tai automaattisesti niiden julkaisun myötä. Esimerkiksi Microsoft Fabricissa on käytössä Microsoft Copilot, joka auttaa muun muassa lähdedatan rakenteiden selvittämisessä.
Data Lakehouse tarjoaa mahdollisuuden tehdä helposti edistynyttä analytiikkaa ja koneoppimista, jos siihen tulee myöhemmin tarve. Tilastollinenkin analyysi helpottuu, kun tiedot ovat tiedostomuodossa. Kaikki dataprosessit saadaan yhdelle alustalle.
Asiakkaille merkittävä uusi kyvykkyys on myös reaaliaikaisuus. Perinteisten kerran vuorokaudessa pyörivien eräajojen sijaan tietointegraatiot voidaan usein toteuttaa lähes reaaliaikaisina ilman merkittäviä lisäkustannuksia.
Silloin, kun tietoalustaa lähdetään rakentamaan ensimmäistä kertaa, on aloitukselle kimmokkeena tyypillisesti tietty tarve hyödyntää tietoa. Esimerkiksi eräässä noin miljoonan liikevaihtavassa yrityksessä oli tarve toimittaa talousmateriaalia asiakkaille joka kuukausi. Toiminta oli kasvanut siihen pisteeseen, etteivät resurssit enää riittäneet tehdä tätä manuaalisesti. Microsoft Fabricin avulla automatisointiin asiakasraportointi.
Asiakkaiden kokemat hyödyt Data Lakehouse -ratkaisuista
Asiakkaiden kokema hyöty valmiista tietoalustasta riippuu siitä, mikä lähtötilanne on ennen Data Lakehouse -ratkaisua. Niissä projekteissa, missä lähdetään rakentamaan tietoalustaa tyhjältä pohjalta, hyöty tulee erityisesti siitä, että lähtökohtana ollut tarve saadaan ratkaistua. Silloin, kun modernisoidaan on premise -tietoalusta, pilveen siirtymisen tuomat edut korostuvat.
Monelle asiakkaalle tietojen reaaliaikaisuus on merkittävä hyöty. Uudet luvut voivatkin olla saman tien tai useamman kerran päivässä raporteilla. Perinteisissä ratkaisuissa saatetaan tuoda reaaliaikaiset tiedot raporteille tietoalustan ulkopuolelta. Data Lakehousen myötä nämä prosessit saadaan integroitua muuhun tietoalustaan eikä reaaliaikaisia tietoja tarvitse enää tuoda rapotointiin toista kautta.
Usea asiakas yllättyy positiivisesti myös Lakehouse -ratkaisun kustannuksista. Migraatioissa Lakehouseen siirtyminen tuo kustannussäästöjä tai samalla rahalla saadaan paljon monipuolisempia kyvykkyyksiä kuin ennen.
Data Lakehouse -projektien erityiset haasteet ja ratkaisut
Data Lakehouse -alustat ovat helpompia ottaa käyttöön ja konfiguroida, perinteisemmissä ratkaisuissa tarvitaan alkuvaiheessa enemmän työtä ja osaamista.
Toisaalta spesifiä teknistä osaamista on vielä niukasti tarjolla, kun teknologiat ovat melko uusia. Erityisesti Microsoft Fabric on vielä kehittymässä oleva teknologia, jossa on paljon ominaisuuksia vasta koekäytössä ja osa muilta alustoilta tutuista ominaisuuksista puuttuu. Korvaavat ratkaisut jokaiseen tarpeeseen ovat kuitenkin aina löytyneet.
Monesti uuden tietoalustan kyvykkyyksiä ei saada täysin käyttöön, koska harva organisaatio on vielä valmis kaikkeen siihen, mitä Lakehouse-arkkitehtuuri mahdollistaisi. Lopulta päädytään kuitenkin tekemään vanhalla totutulla tavalla.
Data lakehouse -alustat tuovat entistä ketterämpää kehittämistä mahdollistavan teknologian tarjolle, mutta Lakehouse -projektien avaimet onnistuneeseen toteutukseen ovat pitkälti samoja kuin Hovilla olemme tunnistaneet aiemmin myös perinteisissä tietovarastoprojekteissa. Kokemuksemme mukaan kaikkein tärkeintä on, että kehitystyö ohjautuu liiketoiminnasta. Liiketoiminnan aktiivisen osallistumisen myötä saadaan myös jatkuvasti kehityskohteena olevaa tiedon laatua hiljalleen parannettua. Mallinnusvetoisella lähestymistavalla tietoalusta voidaan suunnitella koko organisaatiota palvelevaksi aikaa kestäväksi kokonaisuudeksi, mutta tuottaa hyötyä ketterästi priorisoimalla varsinaista toteuttamista liiketoiminnan tietotarpeiden mukaan.
Mirjamaria Petäjäniemi
Lead Consultant, Trainer