28.02.2023

Tietoarkkitehtuuri – One size fits all?

Hei,

Datanhallinan viitekehykseen liittyvän blogisarjan kolmas osa on nyt julkaistu!

Tällä kertaan kirjoittajana toimii Mirjamaria Petäjäniemi, jolla on rautainen osaaminen laajojen tietovarastokokonaisuuksien toteuttamisesta.

Ari Hovi itse on aikanaan kehittänyt kuuluisan ”Pöydänjalkamallin”. Se on viitekehys, jonka avulla tietoarkkitehtuuria ja tietojohtamista voidaan tarkastella erillisten osa-alueiden kautta.

Pöydänjalkamallin osa-alueet ovat:

Vertaus pöydänjalkoihin tulee pöydän neljästä jalasta: mikäli jalkoja on vain yksi tai kaksi, pöytä ei pysy lainkaan pystyssä. Jos jalkoja on kolme, pysyy se jotenkuten pystyssä, mutta on vaarassa kaatua. Sen lisäksi, että pöydänjalkoja tulee olla oikea määrä, niin näiden tulee olla yhdenmittaisia. Pöytälevynä on organisaation tiedonhallinnan kulttuuri.

 

Tietoarkkitehtuuri – One size fits all?

Sparraillessani Ari Hovin kanssa, mitä ajatuksia hänellä on arkkitehtuurin ja menetelmien pöydänjalasta ja mitä siitä voisi kirjoittaa blogiin, nousi esiin, kuinka nykyään paljon esitetään samanlaista tietoarkkitehtuuria ratkaisuksi jokaiselle organisaatiolle. Ari jakoi kokemuksiaan siitä, miten ja miksi on uransa varrella päätynyt suosittelemaan eri organisaatioille erilaisia ratkaisuja.

Harva asia on mielestäni antoisampaa kuin kuunnella oman alan konkareiden ”sotatarinoita”. Datan kanssa työskentely on pitkälti kysymysten esittämistä. Arin juttuja kuunnellessani minulle alkoi hahmottua kokoelma kysymyksiä, jotka auttavat löytämään kuhunkin tilanteeseen sopivan arkkitehtuurin ja menetelmät.

 

Käsitemallinnus

Olimme heti samaa mieltä lähtökohdasta, että käsitemallinnus on tämän ison pöydänjalan tärkein menetelmä. Se sopii jokaiselle organisaatiolle alasta, koosta, tilanteesta ja datan luonteesta riippumatta. Käsitemalli vastaa ensimmäiseen kysymykseen: Mistä organisaation tiedoissa on itseasiassa kysymys?

Vanhaa sananlaskua tietojohtamisen kontekstiin soveltaen: Hyvin mallinnettu on puoliksi tehty. Hyvin tarkoittaa liiketoimintalähtöisesti, tarpeeksi kattavasti ja yksityiskohtaisesti ihmisiä organisaation eri toiminta-alueilta osallistaen.

ER-mallinnus (entity relationship -mallinnus) on tarpeeksi yksinkertainen menetelmä, että kuka tahansa voi sen nopeasti ymmärtää, ja tarkoituksenmukainen tietomallinnuksen työkaluksi. Käsitemallinnustyökalu, joka on helppokäyttöinen ja mahdollistaa mallien työstämisen yhdessä työpajatyöskentelyllä, tukee mallien liiketoimintalähtöisyyttä ja sitä, että saadaan mukaan eri toiminta-alueiden näkökulmat. Esimerkiksi Elliessä voi ylläpitää myös yhtenäistä liiketoimintasanastoa ja säilöä metadataa, joka auttaa ymmärtämään, mitä käsitteillä todella tarkoitetaan.

 

Liiketoimintakonteksti

Laajemman kontekstin arkkitehtuurivalinnoille antaa kysymys: Kuinka suuressa osassa tiedon hyödyntäminen on organisaation toiminnassa ja kuinka suuressa osassa sen halutaan olevan? Onko se keskeinen yrityksen kilpailuedun kannalta tai tarjoaako potentiaalia merkittävän lisäarvon tuottamiseen asiakkaille? Tämä kertoo siitä, kuinka paljon rahaa tietoarkkitehtuuriin kannattaa panostaa ja kuinka tärkeää on, että se on mahdollisimman monipuolinen, joustava ja skaalautuva. Esimerkiksi, halutaanko mahdollisimman paljon ja kaiken muotoista dataa saada nopeasti talteen analyytikoiden python-skriptien ulottuville pilvipalvelun data lakeen vai riittääkö tähtimalli talousdatasta SQL Serverin kulmalla? Myös tietosuoja, toimintavarmuus ja tiedon läpimenoaika valintakriteereinä korostuvat, mikäli data on todella bisneskriittistä.

Millä eri tavoilla tietoa on tarkoitus hyödyntää? Tämä kysymys auttaa hahmottamaan tietoarkkitehtuuriin tarvittavia komponentteja. Tarvitaanko raportointia ja sen taustalle organisaation laajuisia ”yhden totuuden lukuja”? Tähän ratkaisuna on keskitetty ja mallinnettu tietovarasto ja sitä hyödyntävä raportointityökalu. Tarvitaanko moninaisen raakadatan massaa keskitetyn pääsynhallinnan taakse ja helppoa tapaa hyödyntää sitä koneoppimisen avulla. Tällöin ratkaisuksi tulee data lake ja koneoppimisen työkalu.

Monesti valintaa ei toki tehdä data laken ja tietovaraston välillä, vaan todetaan, että tarvitaan molemmat: tietovarasto yhtenäisesti mallinnetun tiedon varastoimiseen ja data lake nopeaan tutkimiseen, testaamiseen ja kartoitukseen.

 

Tietovaraston mallinnusmenetelmät

Tietovaraston mallinnukseen on olemassa kolme vakiintunutta menetelmää. Kimballin menetelmässä tieto viedään tähtimalleihin, jotka koostuvat yhteisistä kuvailevia ja lajittelevia tietoja sisältävistä dimensioista ja laskennallisia mittaritietoja sisältävistä faktoista. Inmonin menetelmässä tieto normalisoidaan käsitemallin mukaisiin rakenteisiin. Data Vault -menetelmässä tieto normalisoidaan vielä pidemmälle, käsitteiden liiketoiminta-avaimet sisältäviin hubeihin, käsitteitä toisiinsa yhdistäviin linkkeihin ja kahteen edelliseen liittyviä kuvailevia tietoja sisältäviin satelliitteihin.

Tiedon mallinnusmenetelmän valintaan liittyy oma kokoelmansa kysymyksiä. Miltä käsitteiden ja niiden yhteyksien verkko näyttää? Muodostuuko niistä melkein luonnostaan tähtimalli vai ovatko yhteydet ristiin rastiin ja joka suuntaan. Jos tieto on jo melkein valmiiksi tähtimallissa, ei ehkä ole järkeä viedä sitä ensin normalisoituun malliin (Inmonin menetelmä tai data vault), vaan mallintaa suoraan tähtimalliin. Jos taas tietojen välillä on paljon monenlaisia yhteyksiä, normalisoitu malli on varma valinta.

Miten tarkkaa historiaa tiedosta tarvitsee säilyttää? Historiointiin on monia menetelmiä. Data vault säilyttää datan joka ikisen risauksen. Jos näin tarkalle historialle ei ole tarvetta, voidaan käyttää snapshot -menetelmää vallitsevan tilanteen tallentamiseen määrätyin väliajoin.

Halutaanko eri järjestelmistä tulevia tietoja yhdistellä paljon? Mikäli vastaus on kyllä, data vault voi olla hyvä vaihtoehto.

Kuinka paljon mallin laajennettavuutta halutaan painottaa? Data vaultin puolesta puhuu sekin, jos on odotettavissa, että tietovarastoon tuodaan jatkuvasti tietoa uusista järjestelmistä, jotka halutaan mukaan yhtenäiseen malliin.

Tiedon jakelukerroksen tietomalliin valintaan vaikuttaa myös raportointityökalun valinta tai toisin päin. PowerBI toimii hyvin yhteen tähtimallien kanssa, toiset raportointityökalut syövät mieluummin leveitä tauluja. Usein ratkaisuna onkin yhdistelmä normalisoidusta tietomallista ja sitä hyödyntävistä tähtimalleista tai leveistä tauluista.

 

Omistajuus omista tiedoista

On myös hyödyllistä puntaroida: Mikä tukee sitä, että organisaatio saa omistajuuden omasta datastaan? Mikä edistää tiedon demokratisointia ja datanlukutaitoa organisaatiossa?

Parhaimmastakaan ”state of the art” -arkkitehtuurista ei ole iloa, jos yritys ei saa omistajuutta omasta datastaan eikä hyödynnä sitä. On liian monia surullisia esimerkkejä siitä, miten kerran toteutettu tietovarasto jää unohdettuna rapistumaan, koska liiketoiminta ei ymmärrä eikä osaa käyttää sitä ja hyödyntää päätöksentekoon suoraan lähdejärjestelmän tietoja. Data vault -mallinnus ei ole hyvä ratkaisu, jos sen logiikka ei ole kenellekään organisaatiossa tuttu eikä siihen ole resursseja tai kiinnostusta perehtyä.

Tiedosta ja arkkitehtuurista saadaan eniten hyötyä, kun mahdollisimman moni organisaatiossa hyödyntää sitä. Millaisessa mallissa datan pitäisi olla, että se näyttäisi hyödyntäjille tutulta ja lähestyttävältä? Millaisilla työkaluilla dataan olisi helppo päästä käsiksi ja nopea saada siitä hyötyä irti?

Koska jokaisella organisaatiolla on omanlaisensa ihmiset, toiminta ja tiedot, lienee selvää, ettei sama tietoarkkitehtuuri ja samat menetelmät (käsitemallinnusta lukuun ottamatta) sovi joka organisaatioon. Parhaimmillaan kattavan harkinnan tuloksena löytyy arkkitehtuuri, joka tuottaa organisaatiolle paljon arvoa pitkään.

Ystävällisin terveisin,

Mirjamaria Petäjäniemi, Konsultti

 

Ps. Alec Sharp tulee jälleen Suomeen, aiheena tällä kertaa Prosessien mallinnus.

Working With Business Processes Masterclass

Legendaarinen mallinnusguru Alec Sharp saapuu jälleen Helsinkiin vetämään live-koulutuksen! Aiheena on perinteisen Tietojen Mallinnuksen sijaan Prosessien Mallinnus.

Luvassa on jälleen Alecin tavaramerkiksi muodostunutta osallistamista, oikeita tapausesimerkkejä, käytännönläheisyyttä sekä hauskaa yhdessä tekemistä – tällä kurssilla opit varmasti!

Lisätiedot ja ilmoittautuminen tästä.

Saattaisit olla kiinnostunut myös näistä

Datan hallinta

Tietojen mallintaminen – Data Modeling

Lue lisää
Datan hallinta

Data Vault 2.0 Bootcamp + Certification

Lue lisää
Ketterä kehitys

Tietovarastointi käytännössä

Lue lisää