14.09.2016

Käsitemallinnus modernissa tietovarastoinnissa

Käsitemallinnuksella on tärkeä rooli modernin tietovaraston rakennushankkeessa. Perustelen tässä kirjoituksessa miksi. Valaisen asiaan myös kertomalla keväällä HUS:ille (Helsingin ja Uudenmaan sairaanhoitopiiri) tekemästämme hankkeesta.

Moderni tietovarastoarkkitehtuuri on laajempi kuin perinteinen arkkitehtuuri. Ensinnäkin varaudutaan siihen, että organisaation omien perusjärjestelmien lisäksi on ulkoisia tietolähteitä. Myös sensorityyppistä dataa on ennemmin tai myöhemmin tulossa. Tietovarastoa hyödynnetään myös laajemmin. Perinteisen BI-käytön lisäksi data-analytiikka, ennustaminen ja muut uudet mahdollisuudet ja teknologiat halutaan valjastaa liiketoiminnan tueksi.

Dataa pitää voida uudelleen käyttää tietovarastosta muihinkin tarkoituksiin kuin raportointiin ja analyyseihin, kuten data-aineistojen toimittaminen talosta ulos, open data-ratkaisut tai nopeat digitalisointi ja pikasovellus-ratkaisut. Keskitetty, yhdistetty ja tarkastettu data on siis talletettu kerran, mutta sitä käytetään moneen eri tarkoitukseen. Moderni tietovarasto on osa kokonaisarkkitehtuuria ja tukee myös digitalisaatioratkaisuja.

Tietovaraston keskitetyssä relaatiokannassa eri lähteistä ladatut tiedot integroidaan, mutta säilytetään muuten raakamuodossa analysointimahdollisuuksien maksimoimiseksi. Lisäksi yhä useammin on mukana ns. Data Lake –alue, joka perustuu Hadoopiin. Sinne voidaan nopeasti ja edullisesti kopioida erilaisia tiedostoja, ei-strukturoitua dataa tai vaikkapa vanhojen tietovarastojen tiedot. Se saadaan näyttämään tarvittaessa relaatiokannalta määrittelemällä tiedostoille taulut päälle.

Koska tietovarasto siis kattaa hyvin suuren osan organisaation tiedoista, on sen suunnittelu keskeisen tärkeää. Ei kuitenkaan kannata aloittaa suoraan tietovaraston tietokannan suunnittelusta. Parhaiten onnistutaan, jos ensin laaditaan liiketoimintalähtöinen käsitemalli siitä tietoalueesta, joka on tulossa tietovarastoon. Kuvaan tätä esimerkillä.

Laadimme viime keväänä HUS:iin tietovarastoarkkitehtuurin, joka sai nimen Big Data Platform. Sen osana teimme ensin koko tietovarastoalueen kokonaiskäsitemallin ns. ylätason mallina, joka mahtuu A4:lle. Malli antaa hyvän kokonaiskuvan tietovaraston kohdealueesta sekä auttaa huomaamaan samankaltaisia rakenteita yli organisaatio- ja sovellusrajojen. Tällaisessa mallissa tunnistetaan ja määritellään tärkeimmät käsitteet, kuten potilas, asiakas, organisaatioyksikkö, työntekijä, laite ja tuote. Nämä ovat masterdatatyyppisiä käsitteitä. Toisen pääryhmän muodostavat monenlaiset tapahtumatyyppistä dataa kuvaavat käsitteet. Esimerkkejä ovat hoitojakso, käynti, diagnoosi, toimenpide ja mittaus. Malli kuvaa master- ja tapahtumadata –tyyppisten käsitteiden väliset suhteet.

Ylätason mallin on oltava riittävän geneerinen. Esimerkiksi aluksi puhuimme hoitojaksoista ja käynneistä ja niistä tuli erilliset käsitteet. Myöhemmin huomattiin, että tapahtumia, joilla on samankaltaiset yhteydet potilaisiin, työntekijöihin ja organisaatioyksiköihin on muitakin, kuten soitto potilaalle tai vaikkapa nettiterapia. Niinpä yleistimme nämä kaikki käsitteeseen Vuorovaikutustapahtuma. Näin ylätason käsitemalli lisää muutosjoustavuutta, uusia vuorovaikutustyyppejähän on nyt helppo lisätä.

Seuraavana vaiheena oli tehdä suppea pilottihanke eräästä HUS:ille tärkeästä potilastapahtuma-alueesta. Tästä alueesta tehtiin tarkemman tason ER-malli eli käsitemalli, joka noudattaa ylätason mallin päärakenteita.

Tarkoitus oli kokeilla Data Vault –mallinnusta, joten em. tarkka aluetason käsitemalli muunnettiin Data Vault muotoon ja siitä tietokantaan. Analyysejä ja BI-välinettä varten tarvittiin vielä tähtimallin muodossa oleva oma datamartti, jonka avulla näitä potilastapahtumia voi analysoida monen eri dimension kautta. Tällainen datamartti voi olla fyysinen tai virtualisoitu. HUS-pilotti oli nimensä mukaisesti asioiden kokeilua varten, lopulliset valinnat ovat vielä auki.

Nykyisenä ketteryyden ja NoSQL-tuotteiden aikana voi tuntua, että käsitemallinnus on vanhanaikaista, eiväthän uudet tietokannat vaadi edes skeeman määrittelyä. Suosittelen kuitenkin voimakkaasti käsitemallinnuksen tekemistä. Tavoitteenahan on saada kattava, pitkäikäinen tietovarastoinfrastruktuuri ja toisaalta saada nopeasti ja ketterästi uusia raportteja ja analyysejä.

Ylätason käsitemallinnuksen avulla saadaan kokonaiskuva alueesta etukäteen, mikä auttaa suuresti seuraavien vaiheiden suunnittelua. Nyt voidaan edetä pala kerrallaan ja noudattamalla ylätason mallia saadaan yhdenmukainen kestävä ratkaisu. Ei siis rakenneta taloja uudelle alueelle miten sattuu, vaan noudatetaan etukäteen tehtyä asemakaavaa. Asemakaava (vrt. ylätason malli) ei ole kovin tarkka rakennusten (vrt. aluekohtainen toteutus) kohdalla, mutta antaa yleisrakenteen ja mahdollistaa rakentamisen ketterästi, yksi tai monta taloa kerrallaan, vuosien ajan.

Käsitemallinnus selkiyttää myös käsitteiden määrittelyjä. Jos halutaan tilastoida, paljonko on hoidettuja potilaita, on ensin määriteltävä mitä tarkoittaa hoidettu potilas! Usein aivan peruskäsitteiden määrittely on yllättävän hankalaa, mutta itse asiassa työ onkin liiketoiminnan kehittämistä, joka samalla auttaa tietovarasto- ja raportointiympäristön rakentamista. Selkeät käsitteet auttavat ”puhumaan samaa kieltä”.

Tietovaraston hyvä suunnittelu on yksi avaintekijöistä onnistuneessa hankkeessa (kuten myös osaavat toteuttajat ja vetäjä). Niinpä menetelmien osaamiseen ja kouluttautumiseen kannattaa panostaa. Ulkopuolisen konsultin lyhytaikainenkin käyttö voi parantaa toteutuksen laatua huomattavast

 

Saattaisit olla kiinnostunut myös näistä

Datan hallinta

Tietojen mallintaminen – Data Modeling

Lue lisää
Datan hallinta

Data ja analytiikka ratkaisujen modernit toteutukset

Lue lisää
Datan hallinta

Data Vault 2.0 Bootcamp + Certification

Lue lisää