30.08.2022

Modernit datatyökalut käännekohdassa

Hei,

Vierailijana tällä kertaa Ellie Technologies Oy:n Juha Korpela, joka kirjoittaa alla modernien datatyökalujen tilanteesta ja haasteista.

LinkedIniä tai data-alan blogeja ei voi lukea kauaa törmäämättä termiin “Modern Data Stack”. Yleinen mutta hieman hähmäinen termi, lyhennettynä usein “MDS”, viittaa hatarasti määriteltyyn joukkoon erilaisia data-alan teknisiä työkaluja. Internet on pullollaan erilaisia listauksia ja arkkitehtuurikuvauksia (tässä muutamia: https://www.metabase.com/blog/The-Modern-Data-Stack, https://www.fivetran.com/blog/what-is-the-modern-data-stack, https://www.moderndatastack.xyz/), joilla on lähes yhtä monta eroavaisuutta kuin yhtäläisyyttäkin.

Muutamia yleisesti tunnustettuja yhteisiä piirteitä MDS-työkaluilla näyttäisi olevan:

  • Työkalujen takana olevilla yhtiöillä on usein startup-tausta
  • Työkalut ovat pilvipohjaisia
  • Koodi on oleellisen tärkeää: versionhallinta- ja CI/CD-ratkaisut ovat yleisiä
  • Lähestymistapa on kokonaisuutena hyvin “kehittäjäkeskeinen”

MDS on siis eräänlainen työkalupakki, joka yleensä kattaa valikoidun joukon työkaluja seuraavanlaisiin tarpeisiin:

  • Datan lataus lähtöjärjestelmistä
  • Datan tallennus pilveen
  • Data muokkaus
  • Analytiikka ja visualisointi
  • Datan palauttaminen operationaaliseen käyttöön eli ns. “Reverse ETL”

Lähes jokainen dataan ja analytiikkaan todella panostava yritys, kokoluokasta riippumatta, on luonut tai luomassa oman MDS-työkalupakkinsa.

 

Kehittämisen nopeus ja suorituskyky avainasemassa

MDS-työkalupakin oleellisimpia myyntivaltteja on kehittämisen nopeus. Kun työkalut mahdollistavat suoraviivaisen kiinnittymisen datalähteeseen ja nopean koodin tuottamisen ja liikkeelle saatu data laskeutuu loputtomasti skaalautuvaan pilvisijaintiin, on Data Engineerin tuotoksia helppo saada esille.

Pilvityökalujen skaalautuvuus tarkoittaa myös, että teoriassa suorituskyvylle ei ole muita rajoituksia kuin maksavan tahon lompakko – ja skaalaaminen on yleensä tehty erittäin helpoksi tai jopa täysin automaattiseksi. Niinpä datamäärät jotka vielä muutama vuosi sitten tuottivat on-prem-datakeskuksissa harmaita hiuksia ovat nyt täysin arkipäivää. Gigatavuista on siirrytty teratavuihin.

 

Kritiikki kasvussa

Viimeisen vuoden-kahden sisällä on kuitenkin datamaailmassa alkanut esiintyä yhä kriittisempiä puheenvuoroja moderneista datatyökaluista. Onpa viime aikoina koko MDS tuomittu kuolleeksikin, tai vähintäänkin kuoleman kieliin, jo useaan kertaan. 

Työkalujen toimittajat ja konsulttitalot toki edelleen hallitsevat suurinta osaa mediaympäristöstä MDS:n ilosanomalla, mutta soraääniä löytyy erityisesti LinkedInistä helposti. Esimerkiksi Lauren Balik tunnetaan hyvinkin kärkkäistä puheenvuoroistaan, joissa hän kritisoi MDS-työkaluja ja niihin läheisesti liitettyjä datarooleja (kuten ns. “Analytics Engineer”) erityisesti kustannusten hallinnan kannalta. Chad Sanderson taas kirjoittaa ahkerasti siitä kuinka designin ja mallinnuksen puuttuminen MDS-työssä johtaa sekasortoon ja tehottomuuteen.

Yleisesti kritiikki MDS:ää kohtaan ei kohdistu niinkään työkaluihin itseensä, vaan siihen kuinka niitä käytetään ja sovitetaan yhteen. Kriittiset puheenvuorot koskevat usein jotakin seuraavista aiheista:

  • Työkalupakin “sirpaleisuus” – joka asiaa varten on erillinen työkalu, eivätkä ne aina toimi kovin hyvin yhteen.
  • Kustannusten karkaaminen käsistä – koodia voidaan tuottaa erittäin nopeasti ja skaalaaminen on automaattista, jolloin ongelmia ratkaistaan usein tuottamalla lisää dataa ja lisää koodia; kun sovelluksista kuitenkin usein maksetaan käytön mukaan ja Data Engineerit ovat kalliita, tulee kustannuskäyrän jyrkkä nousu monille yllätyksenä vaikka yksikkökustannus olisikin halpa.
  • “Insinöörikeskeisyys” ja loppukäyttäjien unohtaminen – hankkeet ovat helposti IT-vetoisia, keskittyvät teknologioihin, eivätkä pysty varmistamaan että toimitettavat datatuotteet ovat aidosti hyödyllisiä liiketoiminnalle.

Lisäksi monille data-alaa seuraaville on alkanut käydä ilmi, että suurten teknologiayhtiöiden (kuten Google tai Meta) ongelmat ovat aivan erilaisia kuin pienempien “tavallisten” organisaatioiden. Tällöin myöskään ongelmiin etsittävät ratkaisut eivät aina voi olla samoja. On sinänsä huvittavaa seurata esimerkiksi Fireboltin ja Snowflaken välistä julkista kinastelua muutamien prosenttien erosta suorituskyvyssä käsiteltäessä satojen teratavujen datasettejä, kun koko asia ei ole relevantti kuin pienelle osalle potentiaalisia käyttäjiä.

 

Korjaammeko oikeaa ongelmaa?

On selvää että modernit pilvityökalut ovat mullistaneet datatyön, eikä vanhaan ole enää paluuta. Vähemmän selvää on kuitenkin se, mikä on lopputulos – miten paljon paremmin datahankkeet nyt pärjäävät?

Edelleenkään suurin osa data- ja analytiikkaprojekteista ei onnistu tuottamaan merkittävää liiketoimintahyötyä. Laskusuhdanteen hiipiessä lähemmäs voi olla että FOMO-henkinen rahan kaataminen uusimpiin ja tehokkaimpiin työkaluihin monessa IT-yksikössä loppuu, ja todellista arvontuottoa aletaan seurata tarkemmin.

Nopeampi datan siirtely ja yhä useampien teratavujen hilloaminen pilveen voivat olla hyödyllisiä apuvälineitä, mutta ne eivät ratkaise oikeaa ongelmaa. Datatyön arvontuoton todellinen pullonkaula on sen kytkemisessä liiketoimintaan – sinne missä arvontuotto oikeasti tapahtuu. Moderneinkaan ELT-työkalu ei kerro, mitä pitäisi koodata.

On ollut ilo seurata keskustelun kääntyvän liiketoiminnan ymmärtämisen suuntaan. Chris Tabb lanseerasi #bringbackdatamodelling-liikkeen, Juan Sequeda taas kirjoittaa #KnowledgeFirst-teemalla – nämä ovat esimerkkejä pyrkimyksestä ohjata ajattelua ja resursseja datan sisällön suuntaan. Tietomallinnuksen “renessanssi” on hyvin luonnollinen suuntaus kun teknologiakeskeisen ongelmanratkaisun tie alkaa nousta pystyyn. Tämä on tietenkin myös suunta meillä Elliellä: näemme tietomallinnuksen olennaisena toimintatapana ratkoa ongelmia jo ennen kuin yhtään riviä on koodattu.

“Modern Data Stack” työkaluineen ei varmaankaan ole kuollut, mutta siihen sisältyvä “lisää koodia, lisää dataa” -ajattelumalli ehkä on. On paljon oleellisempaa tuottaa oikeita asioita kuin tuottaa nopeasti mitä sattuu.

Lopulta kyse ei ole siitä, millaista työkalua käyttää, vaan siitä mitä sillä tekee.

Ystävällisin terveisin,

Juha Korpela, CPO, Ellie Technologies OY

Ps. Mikäli sinun pitää valita yksi data-alan alan koulutus, johon tänä vuonna osallistut, valitse tämä. Moni pitää sitä parhaana kurssina, johon ovat ikinä osallistunee!

Business-Oriented Data Modelling Masterclass, 26.-28.9.2022

Kyseessä on Live-koulutus pitkästä aikaa! Tämä Alec Sharpin koulutus on alan klassikko, joka täyttää luokkahuoneen kerta toisensa jälkeen. Kurssilla opit miten mallinnat dataa yhdessä liiketoiminnan kanssa parhaiden käytäntöjen mukaisesti. Monet pitävät Alecin kursseja parhaina, joissa ovat olleet. Pidä siis varasi  – tapa jolla katsot dataa voi muuttua lopullisesti!

Katso lisätiedot ja ilmoittautuminen tästä.

 

Saattaisit olla kiinnostunut myös näistä

Microsoft Fabric: Shortcuts

Lue lisää

Data Lakehouse -projektit käytännössä: Kokemuksia asiantuntijoilta

Lue lisää

Eettinen tiedonkäyttö: Vastuullisuuden peruspilarit

Lue lisää