28.03.2022

Mihin datamaailma on menossa?

Hei,

Kehitämme Ellie Technologies Oy:ssä Ellie data modeling & governance softaa, kuten monet teistä lukijoista tietävät.

Tänä päivänä Ellie kasvaa hurjaa vauhtia ja myös ulkomaalaisia asiakkaita tulee jatkuvasti lisää. Heillä kaikilla, kuten myös meidän loistavilla suomalaisilla asiakkailla, on erilaisia toiveita, jotka luonnollisesti vaikuttavat tuotekehitykseen valtavasti – asiakkaille tätä tehdään.

Kuitenkaan mitään tuotetta ei voi kehittää pelkästään jokaisen yksittäisen toiveen perusteella vaan on oltava oma visio. Tärkeää miettiä mihin dataa puhuva maailma on menossa. 

Mitkä trendit määrittävät seuraavaa kymmentä vuotta? Mitä haasteita data-alan osaajilla on nyt ja mitä huomenna? 

Nämä asiat nimittäin ratkaisevat tuotekehityssuunnitelman (roadmap) isot linjat. 

Tässä on mielestämme neljä kovaa tulevaisuuden megatrendiä, joilla on iso vaikutus data-alaan ja sitä kautta tuotekehitykseemme.

 

Pilvipalvelut

Pilviyhtiö Snowflaken pörssilistautuminen pari vuotta sitten oli historian suurin ohjelmistoalalla. 

Pilvipalveluna toimitetut sovellusten edut ovat yksinkertaisesti ylivoimaiset: automaattiset päivitykset, versionhallinta, edullisuus ja käyttöönoton nopeus ovat hyviä esimerkkejä.

Suurimmat pilvialustayhtiöt eli Ms Azure:n, AWS:n, GCP:n emoyhtiöt ovat maailman suurimpia yrityksiä, juuri edellä mainuttujen hyötyjen vuoksi.

Yrityssoftista yhä suurempi osa matkaa pilveen – tätä kehitystä ei voi enää muuttaa. Toki aina tulee olemaan on-prem ratkaisuja, mutta ne tulevat jäämään isossa kuvassa täysin marginaaliin. 

On-premiä edellyttävät jotkut reguloidut alat, kuten turvallisuus,-pankki,- ja terveydenhuolto. Sekin johtuu vain siitä, että regulaatioiden määritykset on tehty aikaa ennen pilveä.

Klassinen esimerkki on esittää,  että on-prem olisi tietoturvallisempi ratkaisu. Tämä ei yksinkertaisesti pidä paikkaansa. Alustatoimittajat investoivat tuhansia kertoja enemmän tietoturvaan, kun vaikkapa jokin iso kansainvälinen pankki.  

F-Securen Mikko Hyppönen sanookin hyvin: “Mikään yksittäinen toimija pysty kilpailemaan suurten pilviyhtiöiden kanssa turvallisuusasioissa”.

Ellie on korkean tietoturvan omaava pilvinatiivi tuote, eli se rakennettu suoraan pilveen ja toimitus tapahtuu SaaS-mallilla.

 

Datakatalogit 2.0

Datakatalogi-tuote Collibran arvo nousi viime rahoituskierroksen jälkeen 5,5 miljardiin. 

Sen perustajat näkivät aikoinaan, että yksi data-skenen isoista ongelmista on datan tallennus paikkojen hajanaisuus – monilla organisaatioilla on satoja softia ja IT-järjestelmiä ja eikä hullukaan pysy kärryillä, missä kaikkialla dataa lopulta on.

Monet asiakkaamme ovat kuitenkin törmänneet tietyyn haasteseen datakatalogien kanssa: 

Ne kyllä listaavat data lineagea, eli voit määrittää missä data syntyy, niiden avulla saat myös ikään kuin rakennettua inventaarin data-asseteista ja selvittää missä tietokannan taulussa data sijaitsevat.

Haaste tulee siinä, että listat attribuuteista ei vielä kerro kontekstista mitään, vaikka se juuri on hyvinkin relevanttia. 

Se on sama, kun että sinulle olisi käsissäsi siisti puhelinluettelo, mutta kukaan ei kertoisi että nämä ovat ihmisten puhelinnumeroita. Ilman tätä tietoa se on vain “luettelo” on ihmisten nimistä, joiden perässä on jokin outo numerosarja.

Me Elliellä uskomme, että yksi iso haaste tulee olemaan datan ymmärtäminen sekä liiketoimintatiedon yhdistäminen tekniseen tietoon. Asiakas, tuotteet ja laskutukset eivät ole irrallisia “olioita”, vaan lähes aina datan hyödyntäminen lähtee näiden suhteiden selvittämisestä. 

Esimerkiksi kuinka monta potilasta kotiutuu sairaalahoidosta tai kuinka monta liidiä konvertoituu kaupaksi.

Kuten huomaatte, aina on kyse asioiden välisistä suhteista. Datan ymmärtämisessä on nimenomaan kyse kontekstista ja siitä, miten asiat liittyvät toisiinsa. Ei ole olemassa ’asiakasta’ ilman laskutusta tai toimitusta. Konteksti on kaikki kaikessa.

Syksyllä toteutamme natiivi-integraation Collibraan useamman asiakkaamme pyynnöstä,  ja koska heidän kokemustensa mukaan Ellie parantaa datakatalogista  saatavaa hyötyä valtavasti.

Tuomme tämän mielenkiintoisen kehityssuunnan vuoksi myös Ellien sisään  datakatalogi -tyyppisiä ominaisuuksia (esim fyysisten tietomallien takaisin luku Ellieen), joissa attribuuttien yhdistäminen kontekstiin tulee olemaan täysin uudella tasolla!

Ellie ominaisuudet ”tasomaiseen” mallinnukseen auttavat data governancessa.

Liiketoiminnan tuominen keskiöön

Ellien etuna moniin muihin työkaluihin on sen erinomainen UI/UX, ei se on intuitiivinen ja todella helppokäyttöinen.

Tämä liittyy jo pitkään vallinneeseen IT-trendiin, eli että työkalujen tulee olla yksinkertaisesti todella helppokäyttöisiä, jos niitä halutaan käyttää laajasti ja että niillä voidaan saavuttaa tuottavuusloikkaa.

Data-alaa vaivaa tällä hetkellä tietty kuilu liiketoiminta- ja datatekemisen välillä. Ajatellaan, ettei liiketoiminta kuulu siihen ja vaatimusmäärittely dataprojektille voidaan tehdä pelkästään IT:n sisäisenä työtä. 

Tämä tulee muuttumaan myös data-alalla. Datatekemisen pitää hyödyntää liiketoimintaa ja heitä tulee ottaa kehitykseen mukaan. Toki IT ei voi pakottaa liiketoimintaa väkisin mihinkään mukaan, eli IT-organisaatio ei voi tätä  yksin ratkaista, vaan yrityksen ylin johto.

Pilvipalveluissa, ohjelmistokehitys oli data-alaa edellä ja siirtyi sitä ennen pilveen – data-ala tuli myöhemmin perässä.

Samaan tapaan ohjelmistokehityksessä on jo pitkään ollut trendi, että liiketoiminta vetää kehitystä, eikä toisin päin. 

Data-ala tulee tässäkin kohtaa seuraamaan ohjelmistokehitystä, eli nostan liiketoimintalähtöisyyden yhdeksi data-alan megatrendiksi.

 

Hajautettu arkkitehtuuri

Paljon hypetetty datan alan trendi Data Meshin yksi olennainen osa on hajautettu  arkkitehtuuri (distributed architecture). Tällä tarkoitetaan teknisessä mielessä API-arkkitehtuuria, mikropalveluja sekä siirtymää pois isoista monoliittisesta IT-järjestelmistä. 

Toinen puoli kolikkoa on organisaation järjestäytyminen. Asia siis liippaa edellistä trendiä, jossa liiketoiminta lähestyy datakehittämistä.

Nykyisin tilanne on monilla se, että on keskitetty datatiimi, joka toteuttaa “sisäisen konsulttitoimiston” tapaan palveluja eri osastoille. Haaste on kuitenkin se, etteivät he mitenkään voi ymmärtää kaikkia liiketoiminta-alueita tai sitä, miten data niissä syntyy.

Siksi nyt on lisääntymässä ajatus, jossa jokaisessa yksikössä pitäisi olla omaa dataosaamista ja kehitystä.  Tämä ei tarkoita, etteikö tarvitta keskitettyä datainfraa lainkaan – päinvastoin. Jos käyttäisi analogiaa vesiputkista, niin keskitetty datatiimi huolehtii siitä, että putket ovat kunnossa ja vesi vertaa niistä kaikille janoisille. Se, että putkissa virtaa juomakelpoinen vesi, eikä esim jätevesi, on taas liiketoiminnassa olevan dataosaajan vastuulla.

Tällä trendillä on ehkä isoin vaikutus Ellien kehitykseen, koska tämän kokonaisuuden hallinta tulee olemaan the thing.

 

Data-ala kasvaa

Ennustuksia on sinänsä helppo tehdä, koska kukaan ei ole käynyt toistaiseksi tulevaisuudessa eikä tiedä, mikä siellä odottaa. 

Se on suhteellisen varmaa, että data-ala tulee olemaan erittäin kuuma ja nopeasti kehittyvä ala vielä pitkälle tulevaisuuteen. Siihen investoidaan ja kehittämiseen panostetaan entistä enemmän.

Data Engineer-osaaminen on ehkä tämän hetken kysytyintä osaamista ja ala kehittyy hurjaa vauhtia. Myös tarpeet osaamiselle kasvavat ja ovat muutoksessa – uusia menetelmiä ja teknologioita tulee vauhdilla.

Data Governance sekä arkkitehtuuri osaamisen tarve nousee itse asiassa samassa suhteessa: mitä enemmän data engineerit rakentavat putkia (vaikeusastetta lisää vielä on-prem ja pilvialustone sekamelska, jossa pitää puljata, kts DG koulutus alta),  sitä enemmän jonkun pitää katsoa kokonaisuuden perään – on nimittäin suuri vaara, että tehdään päällekkäistä työtä tai pistemäisiä ratkaisuja, jos selkeä koordinaatio puuttu.

Hyvää kevättä kaikille teille data-alalla oleville!

Ystävällisin terveisin,

Johannes Hovi

Ps. Meillä on ilo tarjota aiheeseen liittyvä MDM & Data Governance gurun Mike Fergusonin uusi kurssi:

Centralised Data Governance of a Distributed Data Landscape 11.04.2022 – 12.04.2022

Tänä päivänä monet yritykset ja organisaatiot toimivat ns hajautetussa datan hallinnan ympäristössä. Dataa prosessoidaan lukuisissa on-prem, -pilviratkaisuissa sekä ”edge”-systeemeissä.  Näissä olosuhteissa relevantin datan löytäminen ja hallinta muodostuu äärimmäisen vaikeaksi. Tämä kahden päivän etäkoulutus antaa sinulle eväät parhaiden käytäntöjen soveltamiseksi omassa organisaatiossasi, tule siis mukaan!

Lisätiedot ja ilmoittautuminen tästä.

 

Saattaisit olla kiinnostunut myös näistä

Modernit datatyökalut käännekohdassa

Lue lisää

Tietojärjestelmien tietokantojen ymmärtäminen käsitemallinnuksella

Lue lisää

Tiedon mallinnuksen tasot

Lue lisää