DATA-ALAN TERMIEN SELITYKSET JA KUVAUKSET

Data-ala on täynnä epämääräisiä termejä ja moni on välillä pyörällä päästä, että mitä näillä kaikilla tarkoitetaan. Mikä ero on tekoälyllä ja koneoppimisella? Entä onko Data Lake ja Big Data sama asia?

Termejä käytetään joskus  hieman harhaanjohtavasti ja eikä ihme, että asiaan vihkiymättömät tippuvat välillä kärryiltä. Koko ala myös muuttuu niin nopeasti, että virallisesti hyväksyttyä määritelmiä ei ole.

Tämä luettelo on tarkoitettu kaikille, jotka työskentelevät datan parissa tai ovat muuten kiinnostuneet datan hyödyntämisestä liiketoiminnan kehittämisessä.

Varoituksen sana kaikille oikeinkirjoituksesta kiinnostuneille: osa termeistä on vain englanniksi, esim Big Data kääntyy huonosti suomeksi. Käytämme myöskin esimerkiksi masterdata -termiä mielummin kun ‘ydintietoa’. Olemme listanneet useimpiin kohtiin kuitenkin käännöksiä ja synonyymeja.

Tämä on tehty jaettavaksi ja kaikkien hyödynnettäväksi. Tulemme myös päivittämään sitä aina, kun tulee uusia termejä. Meille voi myös ilmoittaa termejä, jotka jostain syystä jäivät puuttumaan. Täydellinen se ei varmasti ole koskaan, sillä ala tietysti kehittyy koko ajan.

Tutustu myös kattavaan koulutusvalikoimaamme ja järjestämme myös jatkuvasti kansainvälisten data-alan vaikuttajien huippukoulutuksia.

 

DATAPEDIA – DATA-ALAN TERMINOLOGIA

 

Algoritmi on yksityiskohtainen kuvaus tai ohje siitä, miten tehtävä tai prosessi suoritetaan; jota seuraamalla voidaan ratkaista tietty ongelma. Tietojenkäsittelyssä sillä tarkoitetaan edellä kuvatun automatisointia ja koneoppimisen yhteydessä puhutaan usein oppivista algoritmeista, eli algoritmi kehittää itse itseään perustuen palautteeseen.

 

Avoin lähdekoodi (open source) tarkoittaa tietokoneohjelmien tuottamis- ja kehitysmenetelmiä tarjoten käyttäjälle mahdollisuuden tutustua lähdekoodiin ja muokata sitä omien tarpeidensa mukaisesti. Periaatteisiin kuuluu myös vapaus käyttää ohjelmaa mihin tahansa tarkoitukseen ja kopioida ja levittää sekä alkuperäistä että muokattua versiota. Merkittävä osa uusista ohjelmistoista toteutetaan näin, usein laajoina vapaaehtoisten yhteistyöhankkeina.  Esimerkkejä: suomalaisperäinen MariaDB ja Hadoop.

 

Big Data -termillä tarkoitetaan isojen tietomassojen talletusta ja käsittelyä, mukaan lukien strukturoimaton data, kuten teksti-, kuva-, video-, ja äänidata. Big Dataa varten on kehitetty uusia teknologioita, joista ensimmäisiä oli Hadoop. Nyt Big Data-löytyy isojen toimittajien ratkaisuista paketoituna.  Näissä on relaatiokantoihin verrattuna edullisempaa ja helpompaa tallettaa suuria datasettejä tietämättä tietojen rakenteita etukäteen, mutta tietojen hakeminen on haasteellisempaa.

 

Business Glossary on ikään kuin organisaation data-alueen “sanakirja”, jossa on kuvattu ja määritelty keskeiset liiketoiminta termit kuten asiakas, tuotet tai projekti. Business Glossary auttaa monissa dataprojekteissa, kuten Data Governance-ohjelmissa ja tai data-alustan lanseerauksessa. Käsitemallinnus on yksi hyvä menetelmä sen laadintaan.

 

Business Intelligence (BI) on liiketoiminnan raportointia, analysointia sekä visualisointia BI-ohjelmistoja hyödyntäen. Kyseisiä ohjelmistoja ovat esimerkiksi Power BI, Tableau, looker ja Thoughspot. Self Service BI:llä tarkoitetaan sitä, että liiketoiminta voi itse analysoida itselleen tärkeää tietoa ilman it-osaajan tukea. BI auttaa yrityksiä kasvattamaan liiketoimintaansa perustuen tiedon parempaan hyödyntämiseen.

 

Business/Data dashboard on ikään kuin auton mittaristo, jolla pyritään seuraamaan keskeisiä liiketoiminta muuttujia, KPI:tä reaaliaikaisesti. BI-ohjelmistot yleensä tarjoavat sellaisia.

 

Data-Analytiikkaa (data analytics, big data analytics) on sekä kuvailevaa että ennustavaa analytiikkaa. Jos analytiikkatoimintoja ollaan automatisoitu, sitä kutsutaan myös Edistyneeksi Analytiikaksi (Advanced Analytics). Kuvaileva Analytiikka on lähinnä yhteenvetoja tapahtuneesta, mutta Ennustavalla Analytiikalla (Predictive Analytics) tarkoitetaan liiketoiminnan ennustamista tilastotiedettä ja matemaattisia malleja hyödyntäen. Data-Analytiikan esimerkkejä ovat asiakaspoistuman analysointi, koneiden ja laitteiden vikaantumisen ennustaminen tai terveydenhuollossa sairauden puhkeamisen ennakointi.

 

Data Cleasing (datan pudistus tai putsaus) tarkoittaa tietovarannossa säilytettävän datan tarkastusta ja mahdollisen väärän, epätäydellisen tai duplikaattidatan korjaamista tai poistoa. On sanottu, että Data Science on 80 % datan puhdistusta ja 20 % itse analyysiä. Tämä johtuu siitä, että data on monissa eri muodoissa ja monessa tapauksessa virheellistä.

 

Data Governance (tiedonhallintamalli) tarkoittaa käytäntöjä, ohjeistuksia ja sääntöjä, joilla organisaatio käsittelee, tallentaa ja hyödyntää datavarantoaa. Siihen liittyy myös roolitukset, vastuualueet sekä regulaatioiden (esim GDPR) noudattamisen valvonta. Katso tästä Data Governance koulutuksemme. Katso tästä Data Governance koulutuksemme.

 

Datakartoitus (building a data map, information map) on menetelmä, jolla saadaan kokonaiskuva yrityksen ja organisaation datavarannoista tai sen osista. Auttaa kuvaamaan organisaation keskeiset käsitteet selkeällä tavalla sekä parantamaan IT:n ja liiketoiminnan kommunikointia. Tavoitteena on lisätä ja dokumentoida hajallaan olevaa dataymmärrystä (ja sitä kautta liiketoiminnan ymmärrystä), joka on keskeisen tärkeää kaikissa organisaation digitalisaatio- ja datahankkeissa, kuten tietojärjestelmän hankinta tai laajennus, tietovarasto/BI -hanke, Big Data -kehitys.

 

Datakatalogi (data catalog) auttaa yrityksiä selvittämään mitä dataa sillä on, missä se sijaitsee ja miten ne liittyvät toisiinsa. Sitä voi kutsua organisaation “metadata kirjastoksi”. Datakatalogit ovat kasvattaneet suosiota viime vuosina juuri sen vuoksi, että yrityksillä on käytössään ennätysmäärä IT-järjestelmiä, sovelluksia, tietokantoja ja tiedostoja. Datat ovat “piilossa” näissä järjestelmissä ja datakatalogit auttavat tässä haasteessa.

 

Data Lake (tietoallas, data-allas) on arkkitehtuuriratkaisu datan tiedostopohjaiseen tallennukseen. Nopea tallettaa isoja tietomassoja ja myös strukturoimatonta dataa. Edullisen talletuksen vuoksi dataa voidaan kerätä laajasti ja vasta myöhemmin päättää mitä oikeasti tarvitaan. Ei sovellu niin hyvin vakiomuotoiseen ja tuotannolliseen raportointiin (vs tietovarastointi ja BI). Usein puhutaankin tietovaraston täydentämisestä tietoalustalla, ei korvaamisesta. Voi toimia tietovaraston lastauslaiturina (Staging area). Data Scientistit, tutkijat sekä AI/ML kehittäjät ovat Data Laken tyypillisiä käyttäjiä.

 

Data Lakehouse on Databricks-yrityksen suosituksi tekemä termi sellaiselle data-arkkitehtuurille, joka yhdistää tietoaltaan (data lake) ja tietovaraston (data warehouse yhteen ja samaan alusta ympäristöön. Nykyisin sen käyttäjinä ovat pääasiassa data scientistit sekä AI/ML-kehittäjät. Aika näyttää, kasvattaako lähestymistapa suosiota myös BI- ja muun tuotannollisen data-analytiikan kehittäjien parissa.

 

Datamartti (datamart)  on paikallinen tietovarasto, jossa tietoja on jalostettu raportoinnin helpottamiseksi. Voidaan suunnitella esimerkiksi tähtimallinnuksella tai ns. leveänä tauluna. BI-tuotteet osaavat yleensä lukea hyvin Datamartteja. Voi olla erillinen tai tietovarastosta johdettu.

 

Data Mesh on uusi konsepti, jolla kuvataan hajautettua data-arkkitehtuuria (vrt keskitetty data-arkkitehtuuri). Keskeistä siinä on API-rajapinnat, mikro palvelut, datatuotteet, ns domain design data (liiketoimintalähtöinen suunnittelu). Data Mesh on lyhyessä ajassa saavuttanut suuren suosion ja sitä hyödyntävät esimerkiksi Netflix, Zalando ja muut verkkopalvelut yritykset.

 

Data Platform (tietoalusta) on monipuolinen alustaratkaisu datan hyödyntämiselle. Usein sillä viitataan Ms:n Azureen, Amazonin AWS:ää tai Googlen GCP:hen. Näillä toimittajilla on  omat natiivisovellukset AI/ML-kehittämiseen, sovelluskehitykseen, tietovarastoinnille,-altaille ja BI-raportointiin sekä moneen muuhun. Vahvuutena on monipuolisuus ja helppo implementointi, heikkoutena on tiettyjen tuotteiden vajavaiset ominaisuudet sekä ekosysteemien välinen “yhteistyö”.

 

Data Quality Management (datan laadunhallinta) liittyy datan laadun varmistamiseen. Jotta dataa voi analysoida ja hyödyntää, pitää datan laadun olla riittävää. Data Quality-prosessiin kuuluun datan testaus ja laadunhallintaan liittyvä ohjeistus. Edellyttää organisoituja rooleja ja työtehtäviä, kuten tietovastaavia.  Myös koneoppiminen hyödyntäminen edellyttää riittävän hyvää datan laatua.

 

Data Science (datatiede) on sukua Data-Analytiikalle, mutta siinä korostuu tutkimuksellinen ote; testataan hypoteeseja luonnontieteestä tuttujen periaatteiden mukaisesti. Muun muassa koeasetelmiin perustuvaa datan analysointia tilastotieteellisin menetelmin sekä koneoppimista hyödyntäen. Data Scientisti tutkii dataa ja löytää sieltä kaavoja (eng pattern). Data Scientistin keskeinen taito on löytää uusia kysymyksiä, joihin vastaamalla liiketoimintaa voidaan kehittää.

 

Data Steward (tietovastaava) on nimetty henkilö organisaation sisällä (liiketoiminnassa), joka tietosisällön asiantuntijana vastaa tietyn alueen tai organisaatioyksikön datasta, mukaan lukien laaduntarkastus. Tietovastaava auttaa lähipiiriään datan hyödyntämisessä  ja osallistuu tiedonhallintaratkaisujen kehittämiseen omalla alueellaan.

 

Data Virtualization (datan virtualisointi, logical datawarehouse)  -teknologian avulla voidaan muodostaa yhdistetty näkymä moniin tietolähteisiin. Ohjelmistoja ovat mm. Denodo, ReHat JBoss ja TIBCO. Niihin voi kytkeä esim. useita relaatiokantoja ja Excel-, XML- ja Hadoop -tiedostoja. Kuvaukset määritellään päällekkäisiksi näkymiksi, jolloin ylimmällä tasolla kaikki näyttäytyy tauluina, kyseltävissä SQL-kielellä ja lukemattomilla BI-työkaluilla. Tietoja voi siis yhdistellä, säilyttäen ne alkuperäisissä sijaintipaikoissaan. Voi täydentää tai jopa korvata fyysisen tietovaraston. Haasteeksi voi tulla suorituskyky (tiedot haetaan ja yhdistetään ”lennossa”). Ei korvaa tietovaraston kykyä tietojen historiointiin.

 

Deep Learning (syväoppinen) on koneoppimisen osa-alue, jossa pyritään imitoimaan aivojen toimintaa yleisimmin ns. neuroverkkojen avulla. Tekoälyn kehityksessä tapahtuneet läpimurrot esimerkiksi konenäön, puheentunnistuksen ja kielen kääntämisen alueilla ovat johtaneet osittain vastaaviin tai tai parempiin tuloksiin kuin ihmisasiantuntijoilla; Deep Learning -menetelmien nopea kehitys on tässä avainasemassa. Katso tästä tekoälykouluksemme.

 

ETL tarkoittaa datan siirtämistä ja muokkaamista ja lataamista: tiedot haetaan (Extract) lähdejärjestelmästä, niitä muokataan (Transform) ja ladataan  (Load) lopulta tietovarastoon. Latausprosessissa tiedot muunnetaan tietovaraston rakenteen muotoon, integroiden samalla eri lähtöjärjestelmien tietoja. Prosessi sisältää yleensä myös tietojen historioinnin. Tyypillinen ETL-prosessi voisi esimerkiksi käsittää asiakastietojen integroimisen asiakassovelluksesta yrityksen keskitettyyn tietovarastoon.

 

Internet of Things (esineiden internet, IoT, internet of everything) on koneiden ja laitteiden yhdistämistä Internetiin ja koneista syntyneen datan yhdistämistä muuhun dataan. Nyt ja tulevaisuudessa lähes kaikki laitteet tullaan yhdistämään Internetiin, kuten älypuhelimet jo nyt, ja tämän datan analysointi tuo paljon mahdollisuuksia.

 

Koneoppiminen (machine learning, machine intelligence) on tietojenkäsittelytieteen osa-alue, jossa ohjelmisto tai järjestelmä ”oppii” datan avulla ilman ohjelmointia. Hyödyntää data-analytiikasta tuttuja laskennallisia menetelmiä ja tilastotiedettä parantamaan asteittain annetun tehtävän suorituskykyä. Deep Learning-menetelmä kuuluu tähän kategoriaan. Katso tästä tekoälyyn liittyvät koulutuksemme.

 

Käsitemallinnus (conceptual data modelling, business oriented data modelling) on menetelmä tietyn kohdealueen käsitteiden ja tietojen mallintamiseksi liiketoiminnan näkökulmasta, sovellus- ja tekniikkariippumattomalla tavalla. Tuloksena syntyy käsitteet ja niiden keskinäiset riippuvuudet kuvaava graafinen käsitemalli sekä käsitteiden määritykset. Auttaa kommunikoinnissa, mm.  liiketoiminnan ja IT:n välillä tai toimittajien kanssa. Yhteiset käsitemääritykset auttavat ”puhumaan samaa kieltä”. Käsitemallit ovat hyödyllisiä jo sellaisenaan liiketoiminnan datakartoituksessa, lisäksi niistä edetään esimerkiksi tietokantaratkaisuihin, tietovarastoihin tai ERP-järjestelmän valintaan.

 

Master Data Management (MDM, ydintietojen hallinta) on syntynyt tarpeesta saada eri järjestelmiin sirpaloituneet, moneen kertaan talletetut ja usein eri tasoilla olevat perustiedot parempaan hallintaan. Master Data on pitkäikäistä, hitaasti muuttuvaa, monia yrityksen tai organisaation yksikköjä kiinnostavaa tietoa; ikään kuin ”perusrekistereitä”, kuten tuote- ja asiakastiedot. Tapahtumatiedot eivät ole Master dataa. Master Data Management pitää sisällään prosessit, joilla nämä organisaation yhteiset tärkeät tiedot pidetään paremmin ajan tasalla ja laadukkaina. Katso tästä Master Data Management koulutuksemme.

 

Metadata (metatieto) on tietoa tiedosta eli kuvailevaa ja määrittävää tietoa jostakin tietovarannosta tai sisältöyksiköstä. Esimerkiksi tekstidokumentin tiedot (viimeksi tallennettu, omistaja, versio, sijainti jne.). Käsitemallin käsitteiden määritykset ovat myös metatietoa. Keskeinen rooli tietovarannon käytön tehostamissa; hyvin määritelty metatieto on organisaation ns. hiljaisen tiedon dokumentointia.  Ne voivat helpottaa tietojärjestelmien välisiä tiedonsiirtoja ja eri paikoissa olevien sisältöjen yhdistämistä. Täten laadukkaat metatiedot voivat myös parantaa informaation löydettävyyttä niin, että hakukoneet pystyvät etsimään tietoa tarkemmin ja monipuolisemmin.

 

NoSQL-kannat (NoSQL database) ovat tietokantoja, jotka eivät ole relaatiokantapohjaisia eivätkä myöskään lähtökohtaisesti tue SQL-kieltä, kuten relaatiokannat. NoSQL tulkitaan usein ”Not Only SQL”.  Niissä on taulurakenteen sijaan jokin muu talletusrakenne kuten dokumentti-, ns. key-value -, tai graafirakenne. Esimerkkejä ovat MongoDB ja Neo4j. Tyypillisesti tehostavat jotakin operatiivisen toiminnan aluetta ja ovat usein paremmin skaalautuvia kuin relaatiokannat. Toisaalta relaatiokannat ovat vähitellen omineet monia NoSQL -kantojen piirteitä.

 

Pilvipalvelut (internetpalvelut, cloud computing) on järjestelmien, tietokantojen tai tiedostojen toimimista Internetissä palvelimissa,  vaihtoehtona organisaatioiden omille palvelimille. Tietovarastoalueella esimerkkejä ovat mm. Snowflake, Amazon Redshift,  Azure SQL Data Warehouse sekä useat BI-ohjelmistot. Olennainen Big Data -ratkaisuissa, talletuskustannusten pienennettyä merkittävästi; talletusratkaisuna tällöin usein Hadoop. Etuina nopea liikkeelle lähtö, helppo skaalautuvuus ylös ja alas ja maksu vain kulloinkin tarvittavista palveluista. Suurimpia pilvipalveluiden tuottajia ovat Amazon, Microsoft ja Google.

 

Relaatiotietokanta (relational database) on IBM:n tutkijan E.F. Coddin v. 1970 julkaistuun relaatiomalliin perustuva tietokantateknologia, joka alkoi syrjäyttää 90-luvulla aiempia tietokantatyyppejä. Relaatiokantojen käyttäminen tapahtuu SQL-kielen avulla. Lähes kaikki kaupalliset tietojärjestelmät ja myöskin tietovarastot on rakennettu relaatiotietokantojen päälle. Tiedot tallettuvat tauluihin, jotka muodostavat tietokannan. Yleisimpiä tuotteita ovat Oracle, SQL Server, MySQL, DB2 ja PostgreSQL. Tietovarastointiin erikoistuneita ovat mm. Teradata, Redshift ja Snowflake.

 

SQL-kieli  (SQL language) on ilmaisuvoimainen ja laajalle levinnyt, käytännössä ainoa kieli relaatiotietokantojen kyselyihin ja käsittelyyn. Kehitetty IBM:n laboratoriossa 70-luvulla. Ei-proseduraalinen 4. sukupolven kieli, jossa määritellään, mitä tietoja haetaan, ei siis sitä miten tiedot haetaan (sen päättää relaatiotietokantojen optimoija).  Myös Hadoopin ja monien NoSQL-tietokantojen päälle on tehty SQL-liittymiä. Toimii hyvänä rajapintana relaatiokantojen ja lukemattomien työkalujen välissä (esim. BI- ja ETL-tuotteet). Katso tästä tulevat SQL-koulutuksemme.

 

Tekoäly (artificial intelligence, koneäly, keinoäly) on usein kattotermi ohjelmalle tai algoritmille, jonka oppimisessa on ihmisen kaltaisia piirteitä. General AI:lla tarkoitetaan kehittynyttä oppimista ja ihmismäistä tiedonkäsittelyä – tällä tasolla ei olla vielä. Narrow AI:lla tarkoitetaan kapeampaa, mutta tällä hetkellä jo hyvin toimivaa tekoälyä. Sen käytännön sovellukset perustuvat analytiikan automatisointiin ilman, että ihminen ohjelmoi analytiikan toimenpiteet ja vaiheet erikseen.  Esimerkkejä ovat kasvojen- ja puheentunnistus ja kielen kääntäminen; tai tuotantolinjaa seuraava ohjelmisto oppii määrittelemään vikaantumista ennakoivat mittarit ilman ihmisen määrittelyä. Katso tästä tekoäly koulutuksemme.

 

Tiedonhallinta (data management) on kattotermi, joka sisältää datan hyödyntämisen liittyvän kehityksen, hallinnan, operaatiot sekä käytännöt koko tiedon elinkaaren ajan. Alueelle kuuluvat mm. datastrategia, data governance, käsitteiden mallintaminen, tietovarastointi, turvallisuusasiat, tietoarkkitehtuuri, talletusratkaisut ja tietojen laatu.

 

Tiedon mallinnus (data modeling, ) on menetelmä kuvata tietoja ja niiden välisiä riippuvuuksia, tavoitteena suunnitella tietokannan rakenne. Yleensä käsitemallinnusta seuraava vaihe. Tietovarastojen suunnittelussa on käytössä erikoistuneita mallinnusmenetelmiä, kuten dimensionaalinen suunnittelu (tähtimalli) ja Data Vault. Katso tästä tiedon mallintamiseen liittyvät koulutuksemme.

 

Tietoarkkitehtuuri (information architecture) on kokonaisarkkitehtuurin näkökulma, joka pyrkii tunnistamaan organisaation tietotarpeet strategisen, taktisen ja operatiivisen johtamisen tasoilla, ja kuvaa tiedon luokittelua, rakenteita, alkuperää ja virtausta prosesseissa ja tietojärjestelmissä. Tietoarkkitehtuuri tukee myös tiedon hallintaa ja jalostusta datasta informaatioksi ja tietämykseksi. Sitä käyttävät sekä tieto-, prosessi- että sovellusarkkitehdit.

 

Tietokanta (database) on toisiinsa liittyvien tietojen joukko talletettuna tavalla, jossa tiedot voivat olla yhteiskäytössä. Toteutettu tietokannan hallintajärjestelmällä (Database Management System), joista yleisimpiä ovat Oracle, SQL Server, MySQL, DB2, PostgreSQL ja MongoDB. Valtaosa nykyisistä tietokannoista on relaatiokantoja, pienehkö osa on NoSQL-kantoja; aiemmin käytössä myös ns. verkkomallisia ja hierarkkisia kantoja. Tyypillinen operatiivinen järjestelmä  koostuu ohjelma-osasta sekä taustalla olevasta tietokannasta.

 

Tietovarasto (data warehouse, DW) on erillinen tietokanta, johon eri järjestelmissä hajallaan oleva data poimitaan ja ladataan raportointia,  analytiikkaa ja muuta käyttöä varten. Idea on yhdistellä datat ja tuoda ne saataville, helposti kyseltäviksi, esimerkiksi asiakkaan ns. 360 näkymä. Toteutus yleensä relaatiotietokannoissa, suunnittelussa omia menetelmiä kuten tähtimalli ja Data Vault. Kts. myös Data Platform. Tiedot tarkalla tasolla (ei summattuna) tyypillisesti  päivätasolla, tarvittaessa jopa reaaliaikaisena. Tietovaraston avulla voidaan hoitaa myös tietojen historiointi. Ei ole yksittäinen teknologia, vaan arkkitehtuuri.

 

Yritystason tietovarasto (enterprise data warehouse, EDW) on korporaatio- tai yritystason keskitetty tietovarasto, jossa ideana on yhdistää ja integroida tietoja laajasti yrityksen eri tietojärjestelmistä kokonaiskuvan saamiseksi. Tärkeää on laajennettavuus, eli vähitellen laajennetaan EDW:tä tuomalla sinne eri organisaatioyksiköiden järjestelmien datoja. Edellyttää hyvää suunnittelua eli datakartoitusta sekä käsite- ja tietomallinnusta.

 

Tutustu myös näihin:
Kattava koulutusvalikoimamme.
Järjestämme jatkuvasti myös kansainvälisten data-alan vaikuttajien huippukoulutuksia.
Konsultoimme näistä aiheista.

Ota meihin yhteyttä.