Toimiiko Data Mesh?

Hei,

Datamaailma on viime aikoina kohissut Data Mesh nimisestä konseptista. Mekin kirjoitimme paljon palautetta saaneen blogin aiheesta.

Lyhyesti: se on uudentyyppinen paradigma ja arkkitehtuuri datan parempaan hyödyntämiseen. Teknologiayritykset, kuten Zalando ja Netflix soveltavat sitä.

Yhdysvalloissa eräät Data Mesh-aktivistit ovat jo perustaneet keskustelufoorumin, joka kasvaa valtavalla vauhdilla.

Onko kyseessä Big Data -tyyppinen hypetys?

Data-alan pitkäaikainen vaikuttaja ja aktiivinen keskustelija Uli Bethke kirjoitti Linkedinissä suhteellisen kriittisen kannanoton aiheesta.

Hänen mielestään siinä ratkaistaan ongelmaa, jota ei ole olemassa. Ulista Data Mesh on siten turha konsepti jälleen yksi yritys korvata tietovarastoa jollain humpuukilla.

Asiaan nimittäin liittyy myös olennaisesti Big Data -arkkitehtuuri jonka pohjalta on kehitetty ns. tietoallas, eli data lake.

Uli ei ole tietoaltaan suurin kannattaja – eikä ole yksin tämän näkemyksen kanssa. Itse olen joltain osin Ulin kanssa samalla kannalla, toisaalta olen hyvin pitkälti eri mieltä.

Koko keskustelussa nimittäin ovat menneet puurot ja vellit sekaisin, ja tähän tuntuu liittyvän suuri väärinkäsitys.

Palaan siihen myöhemmin, mutta ensin hieman historiaa.

Tietovarastointi säästää kustannuksissa

Tietovarastointi ja business intelligence kehitettiin alun perin juuri sitä varten, että dataa olisi helppo tarjoilla kulutettavaksi.

Eri järjestelmissä hajallaan oleva data on saatava mallinnettuna ja integroituna keskitettyyn paikkaan, tietovarastoon.

Pureskellaan, käsitellään ja järjestellään data sellaiseen muotoon, jota on monien helppo ymmärtää ja lukea. Tällainen rakenne on juuri relaatiotietokannoissa.

Silloin datan hyödyntäjänä tekniset osaamisvaatimukset eivät ole niin suuret, usein SQL-kieli riittää, monenlaisia BI-välineitä on. Näitä osaajia on tyypillisesti paljon työmarkkinoilla.

Sen sijaan että koodari tekee raportin manuaalisesti aina uudestaan, automatisoidaan tämä prosessi. Vähemmän manuaalista työtä, enemmän automatiikkaa.

Tällä ratkaisulla on saatu paljon kustannussäästöjä. Useamman koodarin sijaan tarvittiin vain muutamia koodareita ja dataa pystyvät myös vähemmän tekniset ihmiset hyödyntämään, kun data on valmiiksi jalostettu.

Näiden ratkaisujen myötä datanhallinnan taso on noussut merkittaävästi. Samalla syntyi BI-tyyppinen datan visualisointi ja dashboardit.

Yksi asia kuitenkin muutti kaiken, nimittäin Internet.

Koodarien Big Data (eli tietoallas)

Viimeisten vuosikymmenien aikana Yhdysvaltojen länsirannikon teknologiayrityksistä tuli hyvin kehittyneitä – ellei parhaita – datan hyödyntäjiä.

Googlesta, Amazonista ja Facebookista tuli maailman arvokkaimpia yrityksiä juuri niiden datavarantojen vuoksi.

Näiden yritysten kohdalla datan hyödyntäminen ei ole vain BI-raportointia vaan koko toiminnan ydin. Ne ovat verkkopalveluyrityksiä ja kehittävät palvelujaan dataan perustuen.

Teknologiayrityksillä data siis ei ole mitkään sivutuote. Ei myöskään puhuta ”vain” datan toisiokäytöstä. Data on keskeinen osa niiden ansaintalogiikkaa.

Näistä ympyröistä syntyi Big Dataksi kutsuttu arkkitehtuuri ja Hadoop-teknologia verkkodatan analysointiin.

Tämä teknologia kehitettiin, koska relaatiokantapohjaiset tietovarastoratkaisut eivät sopinee kovin hyvin klikkidatan ja muiden isoje massojen analysointiin.

Kuten kaikki muistavat, Big Datasta tuli varsinainen trendi-ilmiö ja siitä puhuttiin kaikkialla.

Sitten tapahtui jotain hyvin outoa, ja tämä on juuri yksi IT-maailman suurista väärinkäsityksistä.

Unohdettiin käyttötapaukset arkkitehtuuria suunniteltaessa.

Oikea arkkitehtuuri oikeaan paikkaan

Puhuin edellä isosta väärinkäsityksestä ja tässä se tulee:

On vaikea sanoa kuka asian keksi tai miten väärinkäsitys lähti syntymään, mutta jostain syystä Big Data-tyyppisiä ratkaisuja alettiin tarjota myös muihin käyttötapauksiin kun verkkodatan analysointiin.

Sanottiin, että tämä uusi teknologia korvaa tietovarastot ihan joka suhteessa. Moni lähti tähän ja alkoi toteuttaa tietoaltaita myös Suomessa.

Vaikka Hadoop jäi vähemmälle ja sen korvasivat Microsoftin, Amazonin ja Googlen helppokäyttöisemmät alustat, ei se silti muuta sitä tosiasiaa, että tietoallasarkkitehtuuri ei sovellu kaikkiin käyttötapauksiin.

Valtaosa yritysten ja organisaatioiden käyttötapauksista datan hyödyntämiselle on hyvin erilaisia kun Facebookin ja Netflixin.

Esimerkiksi tuotteen myynti tietyssä toimipisteessä, palvelun kate, rekrytoinnin läpimenoaika, tuotantoprosessin kustannukset ja niin edespäin.

Nämä ovat lähes kaikki sellaisia tarpeita, joihin soveltuu hyvin nimenomaan tietovaraston tyyppinen ratkaisu.

Oltaisiin säästytty aikamoiselta vaivalta ja kustannuksilta, jos olisi tämä sinänsä yksinkertainen asia tajuttu jo aikaisemmin.

Tässä on myös toinen, hyvin fundamentaali ero, josta päästää Data Meshiin:

Teknologiayritykset ovat hyvin erityyppisiä yrityksiä kun perinteiset yritykset, jotka myyvät jotain muuta kun teknologiaa.

Kuten todettiin, tietovarastointi lähtee siitä, että alun koodauksen jälkeen dataa voivat hyödyntää muutkin kun koodarit ja koodareita on vain rajattu määrä yrityksissä.

Mutta mitä jos yritys on koodareita täynnä?

Datan kulutuksesta

Data Meshin yksi keskeinen viesti on se, että datalla on kuluttajia ja toimitusketju datan tuotannosta kuluttajalle tulisi olla eheä.

Datan kuluttajalle tarkoitetaan siis sellaista työntekijää, joka käyttää dataa johonkin työssään. Tällaisia ovat vaikkapa liiketoimintajohtaja, business controller, data scientist tai sovelluskehittäjä.

Tässä kohtaa ei ole suurta ero mielipiteissä, näin asia on kaikkien yritysten kohdalla, dataa pitää saada kuluttajien käyttöön.

Ero tulee siinä, että teknologiayrityksessä datan kuluttajia ovat pääasiassa sovelluskehittäjät ja data scientist, jotka ovat teknisiä asiantuntijoita itsekin.

Toki esim Zalando käsittelee myös taloustietoja ja muuta ns. perinteistä dataa, mutta reilusti suurin osa heidän käyttötapauksistaan liittyy verkkokaupan kehittämiseen.

On täysin eri asia tarjoilla tällaiselle ryhmälle dataa kuin vaikkapa taloushallinnon ihmisille.

Tietoallas ja Data Mesh toimii hyvin, jos kuluttajana ovat sovelluskehittäjät tai data scientistit.

Kysymys kitetyy juuri käyttötapaukseen ja siihen, kuinka ”valmista” datan tulee kuluttajalle käytettäväksi.

Data Meshin parhaat opit

Jos emme ota huomioon historian painolastia, niin mielestäni Data Mesh ajattelussa on erittäin hyviä näkökulmia.

Data-alustojen (data lake, tietovarasto) rakentaminen liiketoiminnan tietotarpeiden tueksi , on menestyksistä huolimatta aina ollut haasteellista, mukaan lukien ”perinteiset” tietovarastohankkeet.

Ongelmana on, että perusjärjestelmien rakentajat ja analytiikkaratkaisujen kehittäjät ovat olleet liian erillään, kommunikointi on ollut puuttelliista.

Data Meshin ns Domain-ajattelu pyrkii ratkomaan juuri tätä ongelmaa ja on siksi erittäin tervetullut kehitys. Ajatus että kehityksen pitää lähteä liiketoiminnan termeistä ja kielestä on juuri se mitä tarvitaan liiketoiminnan ja IT-väen välisen kuilun ylittämisessä.

Kuulostaako tutulta?

Varmasti, sillä parhaiten onnistuneiden tietovarastojen rakentaminen on aiemminkin lähtenyt käsitemallinnuksesta, joka juuri taklaa tuota ongelmaa.

Eli koodariheimo – usein juuri tietoallaskehittäjät – on nyt tullut samaan lopputulokseen kuin ”vanha” tietovarastoheimo”: alustojen kehityksen tulee olla liiketoimintalähtöistä.

Rusinat pullasta

Googlet, Facebookit ja Netflixit ovat toden totta parhaita datan käytössä. On siis varmasti järkevää hyödyntää näitä oppeja kaikin puolin.

Vaikka olen ns. vanhan koulukunnan kasvatti, olen ehdottomasti uusiutumisen kannalla.

Osa Data Meshin kritiikistä ei edes ole oikeutettua. Data Meshin kehittänyt Zhamak Dehghani sanoo itse, että kysymys ei ole tietoallas vastaan tietovarasto kilpailusta, kuten jotkut Data Mesh kriitikot esittävät asian.

Tämä jako tietoaltaan ja tietovaraston kesken on minusta muutenkin vanhanaikainen eikä, palvele ketään; nykyiset arkkitehtuurit ja alustateknologiat tarjoavat molemmat.

Käyttötapaus ratkaisee ja informaatioarkkitehtuuri tulee tukea kaikkia käyttötapauksia.

Esimerkiksi Facebookilla on aina ollut tietovarasto talousdatalle ja tietoallas verkkodatalle.

Data Meshin ajatus on nostaa datan hyödyntäminen sille kuuluvaan asemaan, eli osaksi yrityksen ydinliiketoimintaa.

Tämä tavoite yhdistää varmasti kaikkia data-alan osaajia taustasta riippumatta.

Tästä pääsee kirjautumaan blogin alussa mainittuun avoimeen Data Mesh-foorumiin, jos kiinnostaa tutustua mistä siellä puhutaan.

Ystävällisin terveisin,

Johannes Hovi

Ps. Data Vault 2.0 Sertifointikoulutus on tulossa, muista varata paikat ajoissa!

Data Vault 2.0 Bootcamp + Certification 06.04.2021 – 08.04.2021

Koulutus järjestetään yhteistyössä Data Vaultin kehittäjän Dan Linstedtin kanssa. Kouluttajana toimii Cindi Mayersohn, joka on yksi Danin auktorisoimistista virallisista Data Vault 2.0 kouluttajista.

Sertifioinnilla varmistat, että Data Vault-pohjainen tietoalusta tehdään oikeiden periaatteiden mukaisesti.

Lue lisää ja osallistu tästä.