Ville Niemijärvi: Data, hype ja tekoäly – mitä kannattaa oikeasti uskoa?

Hei,

Data-alalla muotisanat vaihtuvat, mutta peruskysymykset pysyvät yllättävän samoina: mitä dataa meillä on, mistä se tulee, kuka siitä vastaa ja miten sitä käytetään järkevästi.

Tässä blogissa haastattelin Hovi Data Hubissa vaikuttavaa Ville Niemijärveä. Hän on nähnyt data-alan kehityksen 2000-luvun alun tietovarastoista big data -hypeen ja tämän päivän tekoälyaikaan. Tällä hetkellä hän kouluttaa ja konsultoi yrityksiä datan sekä tekoälyn parempaan hydyntämiseen, ei vain teoriassa vaan tuotannossa.

Tässä haastattelussa puhumme arkkitehtuureista, data governancesta, hypeistä, tekoälystä ja siitä, miten AI-agentteja kannattaa rakentaa käytännössä, ilman turhaa höttöä!

Kaikki on muuttunut – mutta ei oikeastaan mikään

Johannes:
Olet tehnyt pitkän uran data-alalla ja yrittäjänä. Kun vertaat urasi alkua ja nykyhetkeä data-alalla, esimerkiksi tietovarastojen ja alustojen rakentamisen osalta, mikä on muuttunut?

Ville:
Kaikki on muuttunut – ja silti ei oikeastaan mikään.

Kun tulin alalle 2002–2003, meille opetettiin ohjelmistotuotannon perusteita: vaatimusmäärittelyä, prosessien mallintamista ja tietomallinnusta. Kirjallisuus oli pitkälti 80–90-luvulta, mutta ne opit pätevät edelleen. Itse asiassa ne ovat vielä tärkeämpiä nyt, koska järjestelmäkenttä on paljon monimutkaisempi.

Teknologia on tietenkin muuttunut: pilvi, skaalautuvuus, tekoäly. Mutta edelleen menen asiakkaalle, jolla pyörii Oracle tai SQL Server relaatiotietokantana. Ja hyvästä syystä, se toimii.

“Ei tarvita tietomallinnusta tai SQL:ää” – punainen vaate

Johannes:
Välillä tuntuu, että uudet sukupolvet julistavat, ettei enää tarvita tietomallinnusta, SQL:ää tai edes tietovarastoja.

Ville:
Tämä herättää minussa eniten punaisia.

Tätä näkyi jo 2000-luvun alussa. Softakehittäjä tulee tekemään data-alustoja ja mentaalimalli on erilainen. Silloin mennään helposti tekniikka edellä puuhun.

Trendit tulevat usein Yhdysvalloista, Facebookilta, Googlelta, Spotifysta – organisaatioista, joilla on teratavuja dataa ja täysin eri käyttötapaukset. Sitten samaa lähdetään soveltamaan suomalaiseen virastoon tai teollisuusyritykseen.

Hyvä esimerkki oli Suomen Tulli. Esittelin arkkitehtuuria, jossa oli relaatiokanta ja tietovarasto. Starttipalaverissa joku sanoi, että “relaatiokannat ovat kuolleita ja Facebook käyttää big dataa, joten meidänkin pitäisi”. Vastasin, että Suomen Tulli ei ole Facebook. Datamassat, regulaatio ja käyttötarkoitukset ovat täysin eri maailmasta.

Johannes:
Ja usein unohtuu myös datan tyyppi.

Ville:
Niin. Talous-, HR- ja myyntidata istuvat hyvin relaatiomalliin. Ne eivät ole striimejä tai käyttäytymisdataa. NoSQL-kannoille on paikkansa, mutta olen nähnyt tapauksia, joissa toimittajalla ei ollut kyvykkyyksiä tehdä kunnollisia dumpeja tai integraatioita. Kun rajapintoja piti rakentaa, kustannukset räjähtivät. Tässä korostuu kypsyys: ollaan uteliaita, mutta käyttötapaus edellä.

Johannes:
Ja ironista on se, että samalla kun Facebook kehitti big data -ratkaisuja, kuulemma heidän oma talousdatansa pyöri ihan perinteisissä relaatiokannoissa.

Ville:
Juuri näin. Usein unohtuu, että myös hyperskaalaajilla on hyvin perinteisiä ratkaisuja siellä, missä ne ovat järkevimpiä.

Kun markkinointitermi yrittää korvata ajattelun

Johannes:
Olen törmännyt siihen, että monimutkaisiin keskusteluihin heitetään “medallion architecture” ikään kuin se ratkaisisi kaiken.

Ville:
Tämä on erittäin tyypillistä.

Kilpailutin hiljattain tietovarastotoimittajia asiakkaalle, jolla on kymmeniä ERP-järjestelmiä ja monimutkainen kansainvälinen rakenne. Kysyin, miten he lähestyvät bisneksen mallintamista. Suurin osa vastasi: “medallion-arkkitehtuuri” ja näytti Azuren markkinointikalvot.

Sanoin, että tämä on sama kuin ennen sanottiin staging–EDW–datamart. Kerrokset on nimetty uudelleen, mutta se ei poista tarvetta käsite- ja tietomallinnukselle eikä bisneksen ymmärtämiselle. Kerrosmalli ei ole kyvykkyys.

Mikä on aidosti paremmin nyt?

Johannes:
Jotta emme kuulosta siltä, että haikailisimme takaisin menneisyyteen, mikä on oikeasti paremmin nyt?

Ville:
Pilvi. Käyttöönoton helppous ja ketteryys.

Voin pystyttää Windows-virtuaalin pilveen kymmenessä minuutissa, ajaa Power BI:tä Macilta ja skaalata laskentaa hetkellisesti. Tämä oli ennen mahdotonta. Lisäksi ymmärretään paremmin, että datalla voi tehdä muutakin kuin vakioraportteja, osittain hypen ansiosta.

Data governance – mahtipontinen termi, arkinen sisältö

Johannes:
Data governance kuulostaa monelle isolta ja raskaalta. Miten saat ihmiset mukaan sen kehitystyöhön?

Ville:
Termi on latautunut. Kun sanot “data governance”, kädet nousevat pystyyn ja ajatellaan vuosien hanketta.

Mutta käytännössä kyse on arkisista asioista:
– kuka omistaa tiedon
– keneltä kysytään, jos raportti tai malli on väärin
– mistä data tulee ja milloin se päivittyy

Näistä syntyvät käsitteet kuten omistajuus, lineage ja data catalog. Mutta usein sanon: ottakaa kynä ja paperi tai Excel, vaikka pöytäliina tai tupakka-askin kansi. Se “nolla ykköseen” on sata kertaa parempi kuin ei mitään.

Ja miksi ei puhuta talousgovernancesta? Koska taloudessa omistajuus ja prosessit ovat muotoutuneet vuosikymmenten aikana. Datassa eivät, siksi termi on pitänyt keksiä.

IT, governance ja tekoäly ristipaineessa

Johannes:
Monessa organisaatiossa IT ja governance ovat tekoälyn kanssa ristipaineessa.

Ville:
Kyllä. Ylhäältä tulee painetta: “Meidän pitää tehdä jotain tekoälyllä.” Samaan aikaan IT:n tehtävä on varmistaa tietoturvan, datan- ja riskienhallinnan.

Jos jarrua painetaan liikaa, koko organisaatio jää jälkeen. Jos kaasua painetaan sokkona, seuraukset voivat olla vakavia. Tässä tarvitaan kypsyyttä ymmärtää, mitä tekoäly oikeasti on ja miten sitä voi ottaa käyttöön hallitusti.

Compliance, tietoturva ja todelliset riskit

Johannes:
Tekoälyyn liittyy paljon pelkoa siitä, että data “vuotaa jonnekin Amerikkaan”.

Ville:
Jos yrityksen sähköpostit, Teamsit ja dokumentit ovat jo Microsoftin tai AWS:n pilvessä Euroopassa, ne ovat jo siellä. Yritystason Copilot, Gemini tai ChatGPT Business eivät muuta tätä perustilannetta.

Compliance tulee vastaan käyttötarkoituksessa. Jos asiakas on antanut luvan käyttää tietoja hotellivaraukseen, et voi käyttää niitä tekoälyllä markkinointiin ilman erillistä lupaa, se olisi GDPR-rikkomus.

Ja rehellisesti: ihmiset kirjoittavat jo nyt sähköposteihin arkaluontoisia asioita. Jos joku kirjoittaa pomolle, että “olen saikulla nivustyrän takia”, se tieto on jo pilvessä. Tekoäly ei ole se keskeinen muuttuja.

Onko tekoäly hypeä – ja miksi tämä on erilaista?

Johannes:
Edellä jo sivuttiin tekoälyä, joka on tietysti erittäin ajankohtainen aihe. Tuntuu, että se oikeasti muuttaa asioita eikä ole vain uusi hype, joka menee ohi. Vai onko AI sittenkin vain uusi hype?

Ville:
On siinä paljon hypeä. Ehdottomasti.

Mutta tämä hype on erilainen. Ensimmäistä kertaa tavalliset ihmiset käyttävät tekoälyä päivittäin. Se muuttaa käyttäytymistä.

Vuonna 2018–2019 teimme chatbotin, johon kului satojatuhansia euroja ja lähes vuoden työ. Lopputulos oli käytännössä hyödytön. Nyt teen viidessä minuutissa moninkertaisesti paremman agentin ja vien sen tuotantoon lähes heti. Se hyppäys on valtava.

“Judovyöt” ja tekoälyn kehitysportaat

Johannes:
Muistan, että aikanaan puhuttiin paljon ajatuksesta, että tekoälyn hyödyntäminen etenee tiettyjen tasojen kautta, vähän kuin judossa vyöarvojärjestelmä.

Ensin hallitaan DW ja BI, eli katsotaan peräpeiliin. Kun se on kunnossa, siirrytään edistyneeseen analytiikkaan ja ennustemalleihin. Kun ollaan siinä hyviä, seuraavaksi tulee koneoppiminen – ja tekoäly on se musta vyö.

Oliko tässä ajattelussa mitään järkeä?

Ville:
Olen itse piirtänyt näitä kalvoja ja uskonut siihen.

Jälkikäteen siinä oli sekä totta että myyntipuhetta. Hyvä data helpottaa tekoälyä, mutta moni organisaatio on rakentanut tietovarastoja 20 vuotta ilman, että tekoälykyvykkyys olisi sen parempi. Nämä voivat ja niiden kannattaa kehittyä rinnakkain. Polku ei ole lineaarinen.

“Perustan pitää olla kunnossa” – vaarallinen ajatus

Johannes:
Moni sanoo, että tekoälyä ei voi hyödyntää ennen kuin “perusteet” ovat kunnossa. Tällä viitataan usein siihen, että tietovarastot eivät ole tarpeeksi kattavia, data governancessa on tekemistä ja tiedon mallinnuksessa ja metadatanhallinnassa on paljon kehitettävää.
Toisaalta eiväthän nuo tule ikinä tavallaan valmiiksi, vai kuinka?

Ville:
Juuri näin. Jos odottaa täydellistä perustaa, ei tehdä koskaan mitään. Tekoälyä pitää lähestyä käyttötapauksista käsin.

Miten AI-hanke kannattaa aloittaa käytännössä?

Johannes:
Kun teknologia kehittyy koko ajan, mistä kannattaa aloittaa?

Ville:
Kaksi asiaa rinnakkain.

Kouluttautuminen: Saadaan johto ja avainhenkilöt samalle sivulle tekoälyn mahdollisuuksista ja rajoista.

Käyttötapausten tunnistaminen: Missä tekoäly tuottaa arvoa.

Nämä pitää tehdä rinnakkain. Moni ajattelee, että “todelliset hyödyt saadaan vasta ydinprosesseissa”, ja se on totta. Mutta ennen sitä on muutosvastarinta ja osaaminen: osaavatko ihmiset tunnistaa järkeviä prosesseja?

Siksi suosittelen kahta trackia.
Ensin nostetaan henkilökohtaisen työn tehostamista: tekoälyä arjessa, sähköposteihin, muistiinpanoihin, ideointiin, ihan mihin vaan.
Samalla rakennetaan kykyä tunnistaa kunnianhimoisempia ydinprosessikohteita.

Kun ihmiset ovat tehneet pienen “oman Copilotin” tai kustomoidun GPT:n, he ymmärtävät paremmin, miksi organisaation laajempi automaatio on järkevää ja pystyvät auttamaan määrittelyssä.

Prosessimallit, tietolähteet ja työkalujen vaihdettavuus

Johannes:
Kun käyttötapaus on tunnistettu, miten AI-agenttia kannattaa lähteä suunnittelemaan käytännössä? Mitä asioita pitäisi kuvata tai ymmärtää ennen kuin lähdetään valitsemaan työkaluja?

Ville:
Kun löydetään käyttötapauksia, suosittelen mallintamaan prosessit ja datat sen verran, että ymmärretään:
– miten asiakas ja data liikkuvat
– mitkä ovat tietolähteet
– missä kohtaa agentti toimii

Tämä on samaa ajattelua kuin data-alustoissa: tunnistetaan lähteet, tehdään tietomallit ja sidotaan data prosesseihin. Silloin agenttien suunnittelu helpottuu ja ennen kaikkea säilyy työkalujen vaihdettavuus.

Jos testattu agenttiratkaisu ei ollut paras, voidaan toteuttaa se toisella työkalulla (esimerkiksi Microsoft-ympäristössä Power Automate tai vastaava), koska prosessi on kuvattu eikä kaikki ole lukittu yhteen ratkaisuun.

Onko vanhoista prosessi- ja datamalleista hyötyä?

Johannes:
Entä vanhat prosessi- ja tietomallit, onko niistä hyötyä vai pitääkö aloittaa aina alusta?

Ville:
On hyötyä, jos ne eivät ole liian vanhoja ja jos ne kuvaavat reaalimaailmaa.

Meidän pitäisi pyrkiä mallintamaan liiketoimintaa reaalimaailman mukaisesti, ei järjestelmien mukaisesti: miten asiakas käyttäytyy, miten työntekijät tekevät työn. Sitten vasta mapata se järjestelmiin.

Tämä auttaa perehdytyksessä, uusissa projekteissa ja jopa siinä, että voidaan “räjäyttää nykyinen” ja rakentaa uudestaan järkevästi.

AI-agentit “kesätyöntekijöinä”

Johannes:
Tuosta, mitä kuvasit, tulee mieleen aika osuva analogia: AI-agentteja voisi ajatella vähän kuin kesätyöntekijöitä tai entry-level-työntekijöitä.

Ville:
Kyllä, juuri näin. Agentit ovat työntekijöitä, ikään kuin kesätyöntekijöitä, jotka oppivat ensimmäiset taidot tänä kesänä, ensi syksynä lisää ja ensi keväänä vielä enemmän.

Siksi prosessikuvaukset, tietomallit, ohjeet ja metatieto ovat ensiarvoisen tärkeitä. Ne ovat agenttien perehdytysmateriaalia, aivan samalla tavalla kuin ihmisilläkin.

Lopuksi

Johannes:
Jos tiivistät tämän kaiken yhteen ajatukseen?

Ville:
Ei sokkona hypeä, mutta ei myöskään täysjarrua. Tekoäly ei vaadi täydellistä perustaa, mutta se vaatii ymmärrystä ja pelisääntöjä, käytännöllisesti, ei mahtipontisesti.

Johannes:
Kiitos Ville. Tämä oli poikkeuksellisen hyvä keskustelu.

Ville:
Kiitos.

Olemme työskennelleet valtaosan Suomen 30 suurimman yrityksen kanssa. Syvennä osaamistasi DAMA Data Management Fundamentals –koulutuksessa tai vie data- ja tekoälykäytäntöön kokeneiden asiantuntijoiden avulla Hovi Data Hubin kautta.

Ystävällisin terveisin,
Johannes Hovi