Seuraava Enterprise Data Governance and Master Data Management -kurssi järjestetään 1.12.2021, katso lisää tästä.
Master Datalla on monia määrityksiä. Tässä blogissa tarkastelen Master Dataa vähän toisenlaisista näkökulmista, nimittäin käsitemallinnuksen, tietovarastoinnin ja Big Datan kannalta.
Master datalla tarkoitetaan dataa, joka on pitkäikäistä ja hitaasti muuttuvaa. Esimerkiksi asiakkaan tietoja talletetaan usein vuosia ja niihin tulee silloin tällöin muutoksia, mutta ei jatkuvasti. Tyypillisiä muita Master Data tietoja ovat tuotetiedot, organisaatiotiedot, oman työntekijät sekä erilaiset koodistot. Master Data –tietoja on joskus kutsuttu termillä ”rekisteri”, esim. asiakasrekisteri tai tuoterekisteri.
Tapahtumatyyppiset tiedot eivät ole Master Dataa. Ostotapahtumat kyllä kytketään asiakkaisiin ja voidaan raportoida asiakkaittain, mutta ne ovat erillisiä tietoryhmiä. Asiakastiedot ovat Master Dataa ja ostotapahtumat eivät ole.
Master data –tietojen esiintymiä on vähän, verrattuna tapahtumatietoihin. Asiakkaita voi isolla yrityksellä olla kyllä miljoonia, mutta verrattuna vaikkapa ostotapahtumiin määrä on pieni. Tapahtumatietoja vyöryy sisään päivittäin, mutta uusia Master Data –tietoja ei välttämättä tule joka päivä.
Master Data –tiedot kiinnostavat monia organisaatioyksiköitä, toisin sanoen niillä on yrityslaajuista kiinnostusta. Lähtötilanteessa on yleensä samoja asiakas- tai tuotetietoja useassa eri tietojärjestelmässä. Master data on siis tyypillisesti siiloutunut. Parasta olisi, jos nämä tiedot olisi talletettu vain kertaalleen ja tiedot olisivat yhteiskäytössä sekä lisäksi ajantasalla. Näihin asioihin auttaa parempi Master Datan hallinta eli Master Data Management.
Ns. referenssitiedot muodostavat yhden ryhmän Master Dataa. Niitä ovat erilaiset koodistot, joissa on yleensä koodilyhenne tai –tunnus ja seliteteksti, kuten kunnan numero ja kunnan nimi. Referenssitiedot ovat organisaation omia tai sitten kansallisia tai kansainvälisiä koodistoja. Esimerkkejä ovat mm. Tilastokeskuksen sivuilta löytyvät luokitukset, kuten kunnat, sairaanhoitopiirit ja toimialat.
Käsitemallinnuksen kannalta Master Data –tiedot ovat ns. ydinkäsitteitä. Master Data –tietoja voi siis tallettaa milloin vain, ne eivät edellytä, että jokin muu tieto on talletettu ensin. Esimerkiksi laskua ei voi tallettaa, jos ei ole asiakasta, mutta asiakkaan – joka on Master Dataa – voi tallettaa koska tahansa. Myös ns. tyyppikäsitteet ovat Master Dataa, kuten vaikkapa asikassegmentti tai tuoteryhmä. Master Datan yksilöivä tunniste on yleensä yksiosainen liiketoimintatiedon tunniste, kuten asiakasnumero, hetu, tuotekoodi tai kustannuspaikkatunnus.
Dimensionaalisessa tietovarastomallinnuksessa Master Data –tiedot toteutetaan dimensioina, kun taas tapahtuma-tyyppiset tiedot toteutetaan faktana. Data Vault –mallinnuksessa Master Data –tiedot toteutetaan hubeina ja niihin liityvinä satelliitteina.
Master Data ei yleensä kuulu ns. Big Data –alueelle, jo pienen volyyminsa puolesta. Nämä tiedot ovat pääosin strukturoituja perustietoja. Master Dataan voi kytkeytyä suuri määrä Big Data –tietoa, kuten klikkausdataa kotisivuilta, asiakkaiden maileja ja some-tyyppistä tietoa.
Master Data –tiedot ovat organisaatioiden keskeisintä, yhteiskäyttöistä ydintietoa. Niiden käsitemallintaminen, määrittely ja hallinta (Master Data Management, MDM) ovat tiedonhallinnan kannalta keskeisen tärkeitä asioita tietojen ollessa hajallaan eri tietojärjestelmissä. Juuri nyt monissa organisaatioissa mietitään miten myös Big Data tiedot saadaan yhdistettyä näihin ydintietoihin.