Contextual layer – vanha ongelma uudella nimellä

Hei,

Jos on viime aikoina käynyt data-alan tapahtumissa tai lukenut alan blogeja, yhtä termiä on ollut melkein mahdoton välttää: context tai hieman hienommin sanottuna contextual layer.

Data Meshit ja moderni data stack ovat unohtuneet: Gartner on juuri julistanut, että 2026 on “year of the context”. Jälleen uusi hypetermi on täällä.

Nyt kaikkialla puhutaan siitä, kuinka tekoälyagentit tarvitsevat kontekstia ymmärtääkseen dataa. Ilman sitä agentit eivät osaa vastata edes yksinkertaisiin kysymyksiin, kuten esimerkiksi:
“Paljonko liikevaihto kasvoi viime kvartaalilla?”

Ajatus on siis se, että jotta tekoäly voisi hakea tällaisia lukuja yrityksen datasta, sille täytyy antaa ymmärrys siitä, mitä nämä käsitteet tarkoittavat ja mistä ne löytyvät.
Toisin sanoen agentti ei ymmärrä taustoja tarpeeksi.

Tämä esitetään välillä ikään kuin kyse olisi aivan uudesta ongelmasta. Mutta jos asiaa katsoo vähän pidemmässä perspektiivissä, eihän se oikeastaan ole.

Tarkastellaan hieman, mitä tämänkertaisen hypen taustalla piilee.

Sama ongelma on ollut data-hankkeissa aina

Data-alan ihmisille tämä kuulostaa hyvin tutulta.

Ihan samalla tavalla data engineer ei pysty ymmärtämään yrityksen dataa pelkästään katsomalla tauluja tietokannassa. Jos tietokannassa on sarakkeet customer_id, client_id ja account_id, ei ole mitenkään itsestään selvää, ovatko ne sama asia vai kolme eri asiaa.

Tai jos kysytään liikevaihdon kasvua viime kvartaalilla, jonkun täytyy joka tapauksessa selvittää ainakin muutama asia:

Mitä liikevaihdolla tässä yrityksessä tarkoitetaan?
Mikä on virallinen määritelmä kvartaalille?
Mistä järjestelmästä nämä luvut pitäisi hakea?

Joskus nämä löytyvät dokumentaatiosta. Joskus BI-mallista. Ja joskus vastaus löytyy vain siltä yhdeltä ihmiseltä, joka rakensi raportin kolme vuotta sitten ja on sittemmin vaihtanut työpaikkaa.

Juuri siksi data-alalla on jo pitkään tehty käsitemallinnusta. Sen tarkoitus on nimenomaan kuvata käsitteiden merkityksiä ennen kuin mennään tekniseen toteutukseen.

Käsitemallinnus ei ole syntynyt akateemiseksi harjoitukseksi, vaan juuri tämän ongelman takia: jotta ihmiset ymmärtäisivät, mitä “data” tarkoittaa.

Nyt vain huomataan, että sama asia koskee myös tekoälyä.

Tekoäly törmää samaan seinään kuin analyytikot

Kun organisaatio yrittää rakentaa AI-agentin datansa päälle, idea kuulostaa usein yksinkertaiselta. Agentti saa pääsyn tietovarastoon ja osaa generoida SQL-kyselyitä.

Mutta aika nopeasti huomataan, että pelkkä pääsy dataan ei riitä.

Agentti kyllä näkee taulut ja sarakkeet, mutta se ei tiedä:

Mitä ne oikeastaan tarkoittavat?
Mikä taulu on “virallinen” lähde?
Miten eri järjestelmien data liittyy toisiinsa?

Ihminen oppii tällaiset asiat yleensä työn kautta. Data engineer tai analyytikko alkaa vähitellen ymmärtää, mikä raportti perustuu mihinkin dataan ja mikä mittari lasketaan millä logiikalla.

Tekoäly ei opi tätä itsestään.

Siksi nyt puhutaan context layerista.

Contextual layer – mitä sillä oikeastaan tarkoitetaan

Kun termiä vähän purkaa, contextual layer tarkoittaa käytännössä kerrosta, joka yhdistää datan ja sen merkityksen.

Siihen voi kuulua esimerkiksi liiketoiminnan käsitteiden määritelmiä, tietoa siitä, mistä data löytyy, metatietoa tauluista, ohjeita siitä, miten tietoa tulkitaan, ja joskus jopa dokumentoitua “hiljaista tietoa” organisaation toimintatavoista (edellisessä blogissani pohdin, miten “muu” data voisi yhdistyä numeeriseen dataan).

Toisin sanoen contextual layer yrittää antaa koneelle saman taustatiedon, jonka kokenut analyytikko on vuosien aikana oppinut.

Se kertoo esimerkiksi, että tietty KPI lasketaan tietyllä tavalla, että yksi järjestelmä on virallinen lähde tietyssä raportissa ja että jokin toinen taulu sisältää vain raakadataa.

Ajatus on sinänsä varsin järkevä.

Ilman tällaista kontekstia AI-agentti on vähän kuin uusi työntekijä, jolle annetaan pääsy kaikkiin järjestelmiin, mutta ei kerrota, mitä mikään tarkoittaa.

Vanha idea palaa takaisin

Kun tästä keskustelusta ottaa hieman etäisyyttä, siinä on myös pieni ironinen sävy.

Yhtäkkiä Gartner ja muut alan analyytikot ovat sitä mieltä, että määritykset ovat itse asiassa se tärkein asia. Pari vuotta sitten, jos joku olisi Gartnerin messuilla saarnannut, että data engineer, tai tulevaisuudessa tekoäly, ei voi ymmärtää liiketoimintaa ilman kontekstia ja että datan hyödyntäminen hidastuu epäselvien määritysten vuoksi, ei olisi saanut paljon huomiota.

Kuten tiedämme, nykyinen, tai pitäisikö sanoa väistyvä, paradigma alustaprojekteissa on ollut nopea ja kustannustehokas koodaaminen.

Monet data-alan huippuasiantuntijat ovat viime aikoina alkaneet esittää, että datan merkityksiä pitäisi mallintaa paremmin. On puhuttu semanttisesta kerroksesta, ontologioista, taksonomioista ja käsitemalleista.

Aina välillä nämä ideat ovat jääneet hieman taka-alalle, koska huomio on mennyt uusiin alustoihin ja teknologioihin.

Nyt tekoäly on tuonut ne takaisin keskusteluun. Nyt ollaan tekoälyn myötä kollektiivisesti tajuttu, että data ei oikeastaan ole kovin hyödyllistä ilman kontekstia — ja asialle pitäisi tehdä jotain.

Lopuksi

Jos tästä pitäisi vetää yksi johtopäätös, se olisi ehkä tämä:

Juttelin hiljattain erään liiketoimintajohtajan kanssa. Hän sanoi, että heillä AI:n hyödyntäminen on erittäin vaikeaa, koska data on hajallaan eikä sitä ole saatavilla. Tämä olisi ymmärrettävää, ellen tietäisi, että sama organisaatio on investoinut erittäin paljon uuteen data-alustaan ja data governanceen.

Tuli väkisinkin mieleen, kuinka huono tilanne olisikaan, jos näitä investointeja ei olisi tehty lainkaan.

Toinen asia, joka tulee mieleen, on se, miksi kyseinen liiketoimintajohtaja ei tiedä näistä investoinneista uuteen data-alustaan ja governanceen.

Ajattelen itse, että todennäköisin vastaus on se, että vaikka yritys on investoinut datan kehittämiseen, se ei ole tehnyt sitä tarpeeksi.

Ison pörssiyrityksen BI-projektit saattavat toki olla mittavia, mutta väitän, että ne ovat kuitenkin melko maltillisia, jos ajatellaan, että data ja sitä kautta tekoäly olisivat aidosti strategisia kehitysalueita.

Mikäli halutaan panostaa tähän kontekstiasiaan, semanttiseen kerrokseen ja käsitemalleihin, sen budjetin tulisi tulla jostain muualta kuin perinteisistä data-, analytiikka- tai governance-budjeteista.

Olemme työskennelleet valtaosan Suomen 30 suurimman yrityksen kanssa. Ota yhteyttä, jos kaipaat käsipareja näkemyksiä data- ja tekoälyprojekteihin. Verkostostamme Hovi Data Hubista löydät parhaat osaajat, freelancerit ja gurut.

Ystävällisin terveisin,
Johannes Hovi

Contextual layer – vanha ongelma uudella nimellä

Sama ongelma on ollut data-hankkeissa aina

Tekoäly törmää samaan seinään kuin analyytikot

Contextual layer – mitä sillä oikeastaan tarkoitetaan

Vanha idea palaa takaisin

Lopuksi

Saattaisit olla kiinnostunut myös näistä

Miten myydään data-projekti liiketoiminnalle?

Missä datan merkitys oikeastaan asuu?

Miten rakennat semanttisen kerroksen? Aloita datamallinnuksesta