Hei,
Tiedon mallinnus (Data Modeling) tuntuu olevan nyt kovassa nousussa. Siitä kertoo jo sekin, että data-alan tunnetuin nimi, Joe Reis, kirjoittaa aiheesta kirjaa. Monelle hän onkin jo entuudestaan tuttu, mutta suosittelen ottamaan hänet seurantaan ja tilaamaan hänen uutiskirjeensä.
Olen viime aikoina ollut mukana useissa hankkeissa, joissa tiedon mallinnusta hyödynnetään. Olemme tehneet yhteistyötä monien suurten kansainvälisten pankkien, vakuutusyhtiöiden, teollisuusyritysten ja muiden toimialojen kanssa Yhdysvalloissa, Iso-Britanniassa ja esimerkiksi Saksassa.
Meillä on ollut aitiopaikka seurata, miten tiedon mallinnusta tehdään ympäri maailmaa ja mitä hyötyjä käyttäjät kokevat saavansa.
Miten tiedon mallinnus hyödyttää organisaatioita?
Keskittäminen vs. hajauttaminen
Moni organisaatio painii keskitettyjen ja hajautettujen ratkaisujen välisen ikuisuuskysymyksen kanssa. Toisaalta on tarve tuottaa IT- ja dataratkaisuja keskitetysti eri funktioille, mutta samalla halutaan olla lähempänä liiketoimintaa. Tämä onnistuu vain tuottamalla ratkaisuja siellä, missä data syntyy (”shift left”).
Esimerkiksi myyntiorganisaation data tallentuu CRM:ään ja muihin sen käyttämiin sovelluksiin. Tiedon mallinnus auttaa kuvaamaan koko organisaation datavarannot ylätasolla (”town plan”). Sen avulla voidaan myös tarkasti mallintaa myyntiorganisaation tietoalueet ja tarvittaessa porautua aina CRM:n tietokantarakenteisiin asti.
Iso hyöty syntyy siitä, että nämä tasot voidaan yhdistää: vähän kuin zoomaisi Google Mapsilla koko kaupungista yhden kaupunginosan kadunkulmaan – ja takaisin.
Datan omistajuus ja domainit
Toinen yleinen kysymys kuuluu: kuka omistaa datan?
Myyntidatan voisi helposti kuvitella kuuluvan myyntijohtajalle, koska hän vastaa CRM:stä. Asia ei kuitenkaan ole näin yksinkertainen: laskutus tapahtuu eri järjestelmässä, josta vastaa talousosasto. Samoin asiakastuki ja tilaukset liittyvät osittain samoihin tietoihin.
Miten domainit siis määritellään? Ovatko ne organisaatioyksiköitä vai esimerkiksi Asiakas- tai Tuote-tyyppisiä entiteettejä?
Tiedon mallinnus auttaa juuri näiden rajapintojen ja roolien määrittelyssä. Sen avulla voidaan sopia, mitä domainit käytännössä tarkoittavat, ja ratkaista omistajuuskysymykset.
Datatuotteet
Data Mesh on monelle jo tuttu käsite, ja sen yhteydessä puhutaan usein myös domaineista ja datatuotteista (data products).
Tiedon mallinnus toimii kuin Ikean huonekalujen rakennusohje: se visualisoi, miten pöydän jalat liitetään pöytälevyyn. Ikea valmistaa paljon erilaisia jalkoja ja pöytälevyjä. Ne on tuotu varastoon noudettavaksi, jotta kuluttaja löytää ne nopeasti tunnisteen avulla.
Samaan tapaan datatuotteita – vaikkapa BI-dashboardeja – tulisi rakentaa uudelleenkäytettävistä komponenteista.
Jos semantiikka (esim. asiakas, tuote, tilaus) määritellään vain BI-työkalussa, syntyy pistemäisiä ratkaisuja. Tämä johtaa työn toistamiseen ja kustannusten kasvuun.
Tiedon mallinnus mahdollistaa monikäyttöisten datatuotteiden rakentamisen: samaa rakennetta voidaan hyödyntää yhä uudestaan eri käyttötarkoituksiin.
Datan migraatio pilveen
Yksi yleisimmistä mallinnuksen käyttötapauksista on tietovarastojen siirtäminen pilvialustalle. Usein halutaan siirtyä on-premise-ratkaisuista, kuten Oraclesta tai SAP:stä, esimerkiksi Snowflakeen tai Databricksiin.
Ajan myötä vanhat järjestelmät ovat monimutkaistuneet, ja niistä on voinut tulla suoranaisia sekasotkuja. Uutta alustaa ei kuitenkaan kannata rakentaa vanhan pohjalle, vaan se on hyvä suunnitella huolellisesti alusta asti. Tiedon mallinnus tukee tätä: esimerkiksi Oracle-kannan sisältö voidaan mallintaa pitkälti automatisoidusti, jolloin saadaan selkeä kokonaiskuva datasta.
Kun tiedetään, mitä dataa on ja miten se liittyy toisiinsa, koko datatuotteiden elinkaari – mallinnuksesta orkestrointiin ja julkaisuun – muuttuu hallituksi ja suoraviivaiseksi prosessiksi.
Yhteenveto
Kun toteutat data-alustahanketta ja haluat tehostaa toimintaa, säästää kustannuksissa ja nostaa organisaation datamaturiteettia, suosittelen hyödyntämään tiedon mallinnusta.
En kuitenkaan tarkoita vanhanaikaista, yhdeksän kuukautta kestävää byrokratiaprojektia, vaan modernia lähestymistapaa, jossa kehittyneet työkalut – AI:lla höystettynä – tuottavat parhaat tulokset.
Ota yhteyttä, jos haluat kuulla lisää, miten voimme auttaa sinua yllä kuvatuissa hankkeissa. Ja tietysti tämä Alec Sharpin mallinnuskurssi on sellainen, joka ihan kaikkien data-alan ihmisten kannattaisi kerran elämässä kokea:
Ps. Kirjoitain myös Linkediniin postauksia havainnoistani datan ihmeellisestä maailmasta, tervetuloa verkostooni!
Terveisin, Johannes Hovi, [email protected]