Data-ala on murroksen keskellä

Hei,

Data-ala, kuten moni muukin ala, on murroksessa, koska tekoäly kehittyy nyt kovaa vauhtia.

Ennen kaikkessa data tekemisessä, oli kyse sitten data-alustoista, data governancesta, meshistä tai fabricista, taustalla oli periaatteessa kaksi use casea eli päämäärää:

a) ulkoinen raportointi, eli viranomaisraportointi sekä raportointi sidosryhmille ja muille ei-operatiivisille tahoille. Näihin pitää panostaa, muuten verottaja voi läimäistä sakkoja tai vaikkapa pörssiin listautuminen mennä metsään.
b) liiketoiminnan kehittäminen datan avulla, eli esimerkiksi resursointien tai prosessien pullonkaulojen tutkiminen ja kehittäminen. Ilman dataa bisneksen pyörittäminen on kuin purjehtimista ilman kompassia.

Miljardien use caset.

Kaikki Snowflaket, Databricksit, dbt:t, Power BI:t muut vastaavat on kehitetty tätä varten. Ja siihen päälle tuhansia data-alalla työskenteleviä ihmisiä, kirjoja parhaista käytännöistä, lukemattomia LinkedIn-postauksia data governancen syvimmästä olemuksesta, pyhiä sotia “oikeasta” Data Vault -tekemisestä, mallinnuksista ja ties mistä data-arkkitehtuureista.

Nyt datan hallinnalla on uusi use case: tekoäly.

Jokainen data-alan ihminen, minä mukaan lukien, joutuu ottamaan tämän huomioon. Data-alustaa ei enää rakenneta pelkästään ihmisille, vaan niin, että data on valmista tekoälyn hyödynnettäväksi.

Halutaan vangita organisaation tiedot konetta varten.

Mitään arkkitehtuuria, enterprise-softaa, frameworkia tai projektisuunnitelmaa ei voi tehdä kuten ennen. Kaikki menee tavallaan uusiksi, koska tämä uusi use case on poikkeuksellinen.

Ei ole olemassa yhtään pörssiyritystä, joka ei miettisi tätä use casea. Se on jokaisen yrityksen pöydällä, pidimme sitä ylimitoitettuna hypenä tai emme.

Onko koodaaminen kuollut?

Tekoäly muuttaa myös itse data-pipelineiden koodausta.

LinkedInissä on muotia julistaa, että jokin on aina kulloinkin kuollut. Koodaaminen on yksi näistä: moni sanoo, että sen merkitys vähenee tekoälyn myötä.

Totuus on, että se vain muuttuu, ei katoa. Tekeminen kohdistuu enemmän arvoa luovaan työhön, ja se, mikä on monotonista tai helposti automatisoitavaa, annetaan AI-agenttien hoidettavaksi.

AI-agentit kehittyvät koko ajan, eli ne hoitavat jatkuvasti laajempaa osaa workflowsta kehityksen edetessä. Teknologia kehittyy huimaa vauhtia, ja se, mikä viime kuussa ei ollut mahdollista, on sitä nyt.

Tämä ei ole vielä täysin tapahtunut data-alalla, mutta ohjelmistoala on jo muutoksen kourissa. Ennen tech-piireissä paradigma oli tämä: mitä enemmän koodaajia, sitä nopeammin ohjelmistotuote kehittyy.

Kun tuoteyritykset, kuten Wolt, Supercell tai Facebook, ovat nostaneet markkinoilta rahoitusta, iso osa rahasta on investoitu tuotekehityshenkilöstön rekrytointiin.

Eli:

lisää koodareita → lisää koodia → nopeampi tuotekehitys → parempi tuote → enemmän asiakkaita.

Nyt teknologia-sijoittajien puheissa tämä paradigma on muuttunut. On kasvava määrä esimerkkejä uusista startupeista, jotka pääsevät satojen miljoonien liikevaihtoon ilman isoa henkilöstöä.

Todistamme paraikaa kehitystä, jossa pienemmillä tiimeillä saadaan enemmän aikaan kuin ennen. Uskon tämän tapahtuvan myös data-alalla.

Miten ilmiö näkyy?

Vielä melko äskettäin suuri osa data engineerin ja analyytikon työstä oli varsin mekaanista. SQL-kyselyitä kirjoitettiin käsin, datamalleja rakennettiin rivitasolla, dokumentaatio tehtiin jälkikäteen, jos tehtiin.

Tätä tehdään edelleen, mutta tapa on muuttumassa nopeasti.

Moni käyttää jo nyt tekoälyä päivittäisessä työssään: kyselyiden luonnosteluun, koodin tarkistamiseen, mallien hahmotteluun ja dokumentaation kirjoittamiseen. Osa hyödyntää yleisiä työkaluja, kuten ChatGPT:tä tai Geminiä. Toiset käyttävät koodieditoreihin integroituja ratkaisuja, kuten Cursor, GitHub Copilot tai Claude-malleihin pohjautuvia editori-integraatioita.

Lisäksi data-alustat, kuten Databricks, Snowflake ja Fabric, tuovat omia tekoälyominaisuuksiaan osaksi tekemistä. Ellie.ai:ssa oli jo pari vuotta sitten tärkeää, että tekoäly otetaan mukaan, ja palkkasimme AI-kehittäjiä.

Vielä on kysymysmerkki, kuinka paljon ihmiset käyttävät SaaS-softien omia tekoälyominaisuuksia verrattuna “tuttuihin” tekoälytyökaluihin. Haasteena on se, että melkein kaikki SaaS-firmat on rakennettu ennen viimeisintä tekoälybuumia, ja niiden “tekoälyominaisuuksissa” on usein hieman päälleliimattu fiilis.

Yhtenäistä toimintamallia tai standardia ei vielä ole, mutta paluuta vanhaan ei ole näkyvissä.

Oleellista on, että tekoäly nopeuttaa datan kanssa puljaamista huomattavasti. Mutta vielä kiinnostavampaa on se, mihin huomio siirtyy.

Metadata on uusi öljy

Uskon, että data-alalla tullaan entistä enemmän panostamaan metadataan, eli dataan datasta. Se on aiemmin ollut monille pakkopullaa: data engineerien vihaamaa dokumentaatiota, sääntöjä, konventioita ja kaiken kivan rajoittamista.

Aiemmin metadatan hallinnan suurin use case oli enterprise-tason tarpeet: haluttiin varmistaa raporttien oikeellisuus auditointia varten, täyttää GDPR-vaatimukset ja muut lakisääteiset velvollisuudet, huolehtia tietoturvasta, käyttöoikeuksista ja vastuuasioista.

Olin mukana erään ison lontoolaispankin data governance -palavereissa ja sain sieltä kirjallista materiaalia tiedon mallinnuksen prosesseista. Se oli sukellus suoraan syvään päätyyn: halutaan top-down-kontrollia, compliancea, sääntöjä, käytäntöjä ja federated sitä ja tätä.

Tekoälyn myötä metadatan hallintaan täytyy kuitenkin suhtautua uudella tavalla. Miten hallitaan metadataa tekoälyn hyödyntämisen kontekstissa?

Väitän, että vanhat opit eivät riitä. Perinteinen enterprise-governance (vrt. yllä mainittu pankki) ei suoraan johda parempaan tekoälyn hyödyntämiseen. Jos meillä on eri use case, kuten tässä tapauksessa tekoäly, niin ei toisen use case:n spekseillä voida operoida loputtomiin.

Minusta metadatan käsitettä ja data governancea tulisi laajentaa myös uudelle alueelle: tekstitiedostoihin ja muuhun ei-numeeriseen dataan.

Tiedonhallinta ja dokumentit

Perinteisesti tiedonhallinta on jakautunut numeerisen datan ja dokumenttien hallintaan. Nämä ovat eriytyneet täysin eri ihmisten ja prosessien hoidettavaksi.

Meillä on IT-järjestelmät, jotka tallentavat numerodataa, ja tätä varten on muodostunut kokonainen data management -toimiala: data-alustat, transformaatiot, governance, mallinnukset ja BI.

Toisin sanoen koko DAMA-bookin sisällysluettelo. Samaan aikaan mittava osa tiedoista elää Word- ja PowerPoint-dokumenteissa, intrassa, sähköposteissa, Slackissa, Teamsissa ja ties missä verkkolevyjen nurkissa.

Näihin liittyy omat ontologiat ja knowledge graphit, joita käytetään tekstimuotoisen datan mallintamiseen.

On jännää, että nämä maailmat ovat lähes täysin data governance -tekemisen ulkopuolella. Ne eivät ole juuri tekemisissä keskenään, eivätkä niiden parissa työskentelevät ihmiset usein edes tiedä toistensa olemassaolosta.

Tällä on muuten uusi hype-termi, josta kaikki nyt tuntuvat puhuvan: Context Layer (siitä oma blogi myöhemmin).

Uskon, että iso hyppäys tekoälyn hyödyntämisessä tapahtuu, kun nämä kaksi maailmaa kohtaavat. Perinteisen data governancen ja tiedonhallinnan tulee kehittyä tähän suuntaan.

Hyvä vertaus tekoälylle on uusi, fiksu, mutta kokematon työntekijä. Se on nopea ja tehokas, mutta ei tunne organisaation kieltä, kontekstia eikä historiaa.

Nyt keskitymme liikaa numeeriseen dataan, kun metadata, teksti ja ehkä myös kuvat ja äänitiedostot tulisi olla samalla viivalla.

Jos haluamme ymmärtää esimerkiksi dashboardin merkityksen, sanotaan vaikka myynnin kehityksen parin kvartaalin aikana, voimme kaivaa numerot tietovarastosta. Mutta mitä ne numerot lopulta kertovat? Jos mukaan liitetään myyntihenkilön tarjoukset, kokousmuistiinpanot ja sähköpostit, puhutaan jo aivan eri asiasta.

Tekoälyn hyödyntämisen haasteet

Maalaan tässä kuvan kehittyneestä organisaatiosta, joka ottaa tekoälyn käyttöön yhtä vaivattomasti kuin Piilaakson tech-yritys. Todellisuudessa hommia hoidetaan kuitenkin edelleen melko samalla tavalla kuin viime viikolla, eikä autot vieläkään aja itsestään, vaikka niin luvattiin. Myös pakko myöntää, että itseäkin ylihypetys ärsyttää, koska realisti pitää aina olla.

Iso huolenaihe on tietoturva. Suomalaiset organisaatiot eivät halua, että omat tiedot kulkeutuvat amerikkalaisten teknologiajättien datakeskuksiin. Datankäsittelyä ohjaavat myös lait, joita on noudatettava.

Ehkä jokin startup voi rikkoa status quo:n. Eihän vaikkapa Spotifyakaan olisi syntynyt, jos olisi pelätty, ettei vahingossakaan rikota mitään lakia. Isot yritykset toimivat kuitenkin lain puitteissa ja tekoälyä on käytettävä sen mukaisesti. Tässä on myös paljon epäselvyyksiä ja tulkintaeroja.

Juttelin esimerkiksi erään kotimaisen puolustusteknologiayrityksen edustajan sekä Naton IT-hankintavastaavan kanssa. Heillä oli hyvin erilaiset näkemykset siitä, missä ja miten sensitiivistä dataa saa käsitellä ja säilyttää.

Sitten ovat asenteet. Osa ihmisistä suhtautuu tekoälyyn varovaisesti tai huolestuneesti. Toki on tervettä suhtautua hypetykseen tietyn varauksin. Mukana on myös ilmiö, jossa koetaan vähän huijaavansa, jos käyttää liikaa tekoälyä: onko tämä enää minun tekemääni, voinko ottaa tästä kunnian?

Viimeisenä mutta ei vähäisimpänä haasteena voisi mainita, että prosessit, vastuujaot ja muu organisoituminen tekoälyn ympärille ovat vielä lapsenkengissä. Ei oikein tiedetä, miten siitä saadaan suurin hyöty irti, ja helposti jäädään vain pieniin kokeiluihin.

Lopuksi

Data-alalla tekoälyyn liittyvä kohina näkyy erityisesti siinä, että semanttisesta kerroksesta puhutaan enemmän kuin ennen ja yhtäkkiä vanha kunnon käsitemallinnus on taas cool.

On alettu ymmärtää, että ilman käsitemääritelmiä, metatietoa ja dokumentoitua liiketoimintalogiikkaa tekoäly kyllä tuottaa vastauksia, mutta ei välttämättä oikeita vastauksia.

Siksi klassiset asiat, kuten käsitemallinnus, semanttinen kerros ja metadata, eivät ole AI-aikakaudella vähemmän tärkeitä. Päinvastoin: ne ovat nyt kriittisiä.

Ironista kyllä, juuri nämä asiat ovat usein niitä, jotka aiemmin haluttiin ohittaa, jotta “päästään nopeasti koodaamaan”.

Uskon myös, että tulee vielä uuden tyyppinen data-alusta (pitäisikö itse kehittää?), joka yhdistäisi tekstitiedon (ja muun ei-numeerisen tiedon) ja perinteisen tietovaraston yhteen ja samaan softaan.

Tässä kaikessa on myös paradoksi: onko tekoäly työkalu vai määränpää?

Käytämme tekoälyä tehostaaksemme raportointia. Samaan aikaan data-alustavendorit, kuten Databricks, sanovat, että datan pitää olla hyvässä järjestyksessä tekoälyä varten.

Toisin sanoen: käytämme tekoälyä sellaisten ratkaisujen kehittämiseen, joiden use case on… tekoäly. Toisin sanoen, käytämme tekoälyä tekoälyn kehittämiseen.

Data-alustafirma Databricksin alusta on suosittu myös Suomessa, eli sen avulla tehdään parempaa raportointia – eli että ihmiset saisivat datat paremmin käyttöön.

Databricksin kotisivuilla sanotaan kuitenkin ensimmäiseksi:

“AI agents trained on your business data
Use Agent Bricks to build, train and deploy AI agents that work”

Tästä itselleni tulee filosofinen pohdiskelu mieleen, eli mikä on kaiken tämän datakehityksen lopullinen päämäärä… auttaa ihmistä vai AI-agenttia?

Olemme työskennelleet valtaosan Suomen 30 suurimman yrityksen kanssa. Ota yhteyttä, jos kaipaat käsipareja näkemyksiä data- ja tekoälyprojekteihin. Verkostostamme Hovi Data Hubista löydät parhaat osaajat, freelancerit ja gurut.

Ystävällisin terveisin,
Johannes Hovi

Data-ala on murroksen keskellä

Onko koodaaminen kuollut?

Miten ilmiö näkyy?

Metadata on uusi öljy

Tiedonhallinta ja dokumentit

Tekoälyn hyödyntämisen haasteet

Lopuksi

Saattaisit olla kiinnostunut myös näistä

Datahankkeiden suurin ongelma ei ole teknologia – vaan yhteinen ymmärrys

Ville Niemijärvi: Data, hype ja tekoäly – mitä kannattaa oikeasti uskoa?

Semanttinen kerros AI-aikakaudella: miksi määritelmät ratkaisevat