• kesäkuu 06, 2018

Data-alan termien selitykset ja kuvaukset

Hei,

 

Data-ala on täynnä epämääräisiä termejä ja moni on välillä pyörällä päästä, että mitä näillä kaikilla tarkoitetaan. Mikä ero on tekoälyllä ja koneoppimisella? Entä onko Data Lake ja Big Data sama asia?

Termejä käytetään joskus  hieman harhaanjohtavasti ja eikä ihme, että asiaan vihkiymättömät tippuvat välillä kärryiltä. Koko ala myös muuttuu niin nopeasti, että virallisesti hyväksyttyä määritelmiä ei ole.

Tämä luettelo on tarkoitettu kaikille, jotka työskentelevät datan parissa tai ovat muuten kiinnostuneet datan hyödyntämisestä liiketoiminnan kehittämisessä.

Varoituksen sana kaikille oikeinkirjoituksesta kiinnostuneille: osa termeistä on vain englanniksi, esim Big Data kääntyy huonosti suomeksi. Käytän itse myöskin esimerkiksi masterdata -termiä mieluummin kun ‘ydintietoa’. Olen listannut useimpiin kohtiin kuitenkin käännöksiä ja synonyymeja.

Tämä on tehty jaettavaksi ja kaikkien hyödynnettäväksi. Tulemme myös pistämään nämä kotisivuillemme ja päivittämään niitä aina, kun tulee uusia termejä. Meille voi myös ilmoittaa termejä, jotka jostain syystä jäivät puuttumaan. Täydellinen se ei varmasti ole koskaa, sillä ala tietysti kehittyy koko ajan.

 

Datapedia – Data-alan terminologia

 

Algoritmi on yksityiskohtainen kuvaus tai ohje siitä, miten tehtävä tai prosessi suoritetaan; jota seuraamalla voidaan ratkaista tietty ongelma. Tietojenkäsittelyssä sillä tarkoitetaan edellä kuvatun automatisointia ja koneoppimisen yhteydessä puhutaan usein oppivista algoritmeista, eli algoritmi kehittää itse itseään perustuen palautteeseen.

 

Avoin lähdekoodi (open source) tarkoittaa tietokoneohjelmien tuottamis- ja kehitysmenetelmiä tarjoten käyttäjälle mahdollisuuden tutustua lähdekoodiin ja muokata sitä omien tarpeidensa mukaisesti. Periaatteisiin kuuluu myös vapaus käyttää ohjelmaa mihin tahansa tarkoitukseen ja kopioida ja levittää sekä alkuperäistä että muokattua versiota. Merkittävä osa uusista ohjelmistoista toteutetaan näin, usein laajoina vapaaehtoisten yhteistyöhankkeina.  Esimerkkejä: suomalaisperäinen MariaDB ja Hadoop.

 

Big Data -termillä tarkoitetaan isojen tietomassojen talletusta ja käsittelyä, mukaan lukien strukturoimaton data, kuten teksti-, kuva-, video-, ja äänidata. Big Dataa varten on kehitetty uusia teknologioita, esimerkiksi hajautettu tiedostojärjestelmä Hadoop.  Näissä on relaatiokantoihin verrattuna edullisempaa ja helpompaa tallettaa suuria datasettejä tietämättä tietojen rakenteita etukäteen, mutta tietojen hakeminen on haasteellisempaa.

 

Business Intelligence (BI) on liiketoiminnan raportointia, analysointia sekä visualisointia BI-ohjelmistoja hyödyntäen. Kyseisiä ohjelmistoja ovat esimerkiksi QlickView, Tableau, Power BI ja Cognos. Self Service BI:llä tarkoitetaan sitä, että liiketoiminta voi itse analysoida itselleen tärkeää tietoa ilman it-osaajan tukea. BI auttaa yrityksiä kasvattamaan liiketoimintaansa perustuen tiedon parempaan hyödyntämiseen.

 

Business/Data dashboard on ikään kuin auton mittaristo, jolla pyritään seuraamaan keskeisiä liiketoiminta muuttujia, KPI:tä reaaliaikaisesti. BI-ohjelmistot yleensä tarjoavat sellaisia.

 

Data-Analytiikkaa (data analytics, big data analytics) on sekä kuvailevaa että ennustavaa analytiikkaa. Jos analytiikkatoimintoja ollaan automatisoitu, sitä kutsutaan myös Edistyneeksi Analytiikaksi (Advanced Analytics). Kuvaileva Analytiikka on lähinnä yhteenvetoja
tapahtuneesta, mutta Ennustavalla Analytiikalla (Predictive Analytics) tarkoitetaan liiketoiminnan ennustamista tilastotiedettä ja matemaattisia malleja hyödyntäen. Data-Analytiikan esimerkkejä ovat asiakaspoistuman analysointi, koneiden ja laitteiden vikaantumisen ennustaminen tai terveydenhuollossa sairauden puhkeamisen ennakointi.

 

Data Cleasing (datan pudistus tai putsaus) tarkoittaa tietovarannossa säilytettävän datan tarkastusta ja mahdollisen väärän, epätäydellisen tai duplikaattidatan korjaamista tai poistoa. On sanottu, että Data Science on 80 % datan puhdistusta ja 20 % itse analyysiä. Tämä johtuu siitä, että data on monissa eri muodoissa ja monessa tapauksessa virheellistä.

 

Datakartoitus (building a data map, information map) on menetelmä, jolla saadaan kokonaiskuva yrityksen ja organisaation datavarannoista tai sen osista. Auttaa kuvaamaan organisaation keskeiset käsitteet selkeällä tavalla sekä parantamaan IT:n ja liiketoiminnan kommunikointia. Tavoitteena on lisätä ja dokumentoida hajallaan olevaa dataymmärrystä (ja sitä kautta liiketoiminnan ymmärrystä), joka on keskeisen tärkeää kaikissa organisaation digitalisaatio- ja datahankkeissa, kuten tietojärjestelmän hankinta tai laajennus, tietovarasto/BI -hanke, Big Data -kehitys.

 

Data Lake (tietoallas, data-allas) on arkkitehtuuriratkaisu, joka perustuu Big Data-teknologioiden, kuten Hadoop, hyödyntämiseen. Nopea tallettaa isoja tietomassoja ja myös strukturoimatonta dataa. Edullisen talletuksen vuoksi dataa voidaan kerätä laajasti ja vasta myöhemmin päättää mitä oikeasti tarvitaan. Ei sovellu niin hyvin vakiomuotoiseen ja tuotannolliseen raportointiin (vs tietovarastointi ja BI). Usein puhutaankin  tietovaraston täydentämisestä Data Lakella, ei korvaamisesta. Voi toimia tietovaraston lastauslaiturina (Data Stage). Data Scientistit ovat Data Laken tyypillisiä käyttäjiä.

 

Datamartti (datamart)  on paikallinen tietovarasto, jossa tietoja on jalostettu raportoinnin helpottamiseksi. Voidaan suunnitella esimerkiksi tähtimallinnuksella tai ns. leveänä tauluna. BI-tuotteet osaavat yleensä lukea hyvin Datamartteja. Voi olla erillinen tai tietovarastosta johdettu.

 

Data Governance (Tiedonhallinnan organisoinnin malli) kattaa seuraavat alueet:  käsite- ja tiedonmallinnus, talletusratkaisut, tietoturva, integrointi, dokumenttien hallinta, master data, tietovarastointi ja BI, metadata, tiedon laatu ja tietoarkkitehtuuri. Sisältää organisaation henkilöiden rooleja, tehtäviä ja menetelmiä ja niihin liittyviä strategioita ja ohjeistuksia.

 

Data Science (datatiede) on sukua Data-Analytiikalle, mutta siinä korostuu tutkimuksellinen ote; testataan hypoteeseja luonnontieteestä tuttujen periaatteiden mukaisesti. Muun muassa koeasetelmiin perustuvaa datan analysointia tilastotieteellisin menetelmin sekä koneoppimista hyödyntäen. Data Scientisti tutkii dataa ja löytää sieltä kaavoja (eng pattern). Data Scientistin keskeinen taito on löytää uusia kysymyksiä, joihin vastaamalla liiketoimintaa voidaan kehittää.

 

Data Steward (tietovastaava) on nimetty henkilö organisaation sisällä (liiketoiminnassa), joka tietosisällön asiantuntijana vastaa tietyn alueen tai organisaatioyksikön datasta, mukaan lukien laaduntarkastus. Tietovastaava auttaa lähipiiriään datan hyödyntämisessä  ja osallistuu tiedonhallintaratkaisujen kehittämiseen omalla alueellaan.

 

Data Platform (tietoalusta) on modernimpi versio relaatiokantapohjaisesta tietovarastosta – nyt mukana on myös ratkaisu Big Data -tyyppiselle datalle. Se tarjoaa mahdollisuudet alustaan jo tuodun datan laajemmallekin hyödyntämiselle, kuten konekielisten aineistojen muodostus, tekoälyn soveltaminen tai jopa kevyt ohjelmistokehitys, kuten dataikkunat asiakkaille tai yhteistyökumppaneille. Ajatus on tarjolla eri käyttäjäryhmille dataa yhdestä keskitetystä paikasta.

 

Data Quality Management (datan laadunhallinta) liittyy datan laadun varmistamiseen. Jotta dataa voi analysoida ja hyödyntää, pitää datan laadun olla riittävää. Data Quality-prosessiin kuuluun datan testaus ja laadunhallintaan liittyvä ohjeistus. Edellyttää organisoituja rooleja ja työtehtäviä, kuten tietovastaavia.  Myös koneoppiminen hyödyntäminen edellyttää riittävän hyvää datan laatua.

 

Data Virtualization (datan virtualisointi, logical datawarehouse)  -teknologian avulla voidaan muodostaa yhdistetty näkymä moniin tietolähteisiin. Ohjelmistoja ovat mm. Denodo, ReHat JBoss ja TIBCO. Niihin voi kytkeä esim. useita relaatiokantoja ja Excel-, XML- ja Hadoop -tiedostoja. Kuvaukset määritellään päällekkäisiksi näkymiksi, jolloin ylimmällä tasolla kaikki näyttäytyy tauluina, kyseltävissä SQL-kielellä ja lukemattomilla BI-työkaluilla. Tietoja voi siis yhdistellä, säilyttäen ne alkuperäisissä sijaintipaikoissaan. Voi täydentää tai jopa korvata fyysisen tietovaraston. Haasteeksi voi tulla suorituskyky (tiedot haetaan ja yhdistetään ”lennossa”). Ei korvaa tietovaraston kykyä tietojen historiointiin.

 

Deep Learning (syväoppinen) on koneoppimisen osa-alue, jossa pyritään imitoimaan aivojen toimintaa yleisimmin ns. neuroverkkojen avulla. Tekoälyn kehityksessä tapahtuneet läpimurrot esimerkiksi konenäön, puheentunnistuksen ja kielen kääntämisen alueilla ovat johtaneet osittain vastaaviin tai tai parempiin tuloksiin kuin ihmisasiantuntijoilla; Deep Learning -menetelmien nopea kehitys on tässä avainasemassa.

 

ETL tarkoittaa datan siirtämistä ja muokkaamista ja lataamista: tiedot haetaan (Extract) lähdejärjestelmästä, niitä muokataan (Transform) ja ladataan  (Load) lopulta tietovarastoon. Latausprosessissa tiedot muunnetaan tietovaraston rakenteen muotoon, integroiden samalla eri lähtöjärjestelmien tietoja. Prosessi sisältää yleensä myös tietojen historioinnin. Tyypillinen ETL-prosessi voisi esimerkiksi käsittää asiakastietojen integroimisen asiakassovelluksesta yrityksen keskitettyyn tietovarastoon.

 

Internet of Things (esineiden internet, IoT, internet of everything) on koneiden ja laitteiden yhdistämistä Internetiin ja koneista syntyneen datan yhdistämistä muuhun dataan. Nyt ja tulevaisuudessa lähes kaikki laitteet tullaan yhdistämään Internetiin, kuten älypuhelimet jo nyt, ja tämän datan analysointi tuo paljon mahdollisuuksia.

 

Koneoppiminen (machine learning, machine intelligence) on tietojenkäsittelytieteen osa-alue, jossa ohjelmisto tai järjestelmä ”oppii” datan avulla ilman ohjelmointia. Hyödyntää data-analytiikasta tuttuja laskennallisia menetelmiä ja tilastotiedettä parantamaan asteittain annetun tehtävän suorituskykyä. Deep Learning-menetelmä kuuluu tähän kategoriaan.

 

Käsitemallinnus (entity modeling, entity relationship, ER) on menetelmä tietyn kohdealueen käsitteiden ja tietojen mallintamiseksi liiketoiminnan näkökulmasta, sovellus- ja tekniikkariippumattomalla tavalla. Tuloksena syntyy käsitteet ja niiden keskinäiset riippuvuudet kuvaava graafinen käsitemalli sekä käsitteiden määritykset. Auttaa kommunikoinnissa, mm.  liiketoiminnan ja IT:n välillä tai toimittajien kanssa. Yhteiset käsitemääritykset auttavat ”puhumaan samaa kieltä”. Käsitemallit ovat hyödyllisiä jo sellaisenaan liiketoiminnan datakartoituksessa, lisäksi niistä edetään esimerkiksi tietokantaratkaisuihin, tietovarastoihin tai ERP-järjestelmän valintaan.

 

Master Data Management (MDM, ydintietojen hallinta) on syntynyt tarpeesta saada eri järjestelmiin sirpaloituneet, moneen kertaan talletetut ja usein eri tasoilla olevat perustiedot parempaan hallintaan. Master Data on pitkäikäistä, hitaasti muuttuvaa, monia yrityksen tai organisaation yksikköjä kiinnostavaa tietoa; ikään kuin ”perusrekistereitä”, kuten tuote- ja asiakastiedot. Tapahtumatiedot eivät ole Master dataa. Master Data Management pitää sisällään prosessit, joilla nämä organisaation yhteiset tärkeät tiedot pidetään paremmin ajan tasalla ja laadukkaina.

 

Metadata (metatieto) on tietoa tiedosta eli kuvailevaa ja määrittävää tietoa jostakin tietovarannosta tai sisältöyksiköstä. Esimerkiksi tekstidokumentin tiedot (viimeksi tallennettu, omistaja, versio, sijainti jne.). Käsitemallin käsitteiden määritykset ovat myös metatietoa. Keskeinen rooli tietovarannon käytön tehostamissa; hyvin määritelty metatieto on organisaation ns. hiljaisen tiedon dokumentointia.  Ne voivat helpottaa tietojärjestelmien välisiä tiedonsiirtoja ja eri paikoissa olevien sisältöjen yhdistämistä. Täten laadukkaat metatiedot voivat myös parantaa informaation löydettävyyttä niin, että hakukoneet pystyvät etsimään tietoa tarkemmin ja monipuolisemmin.

 

NoSQL-kannat (NoSQL database) ovat tietokantoja, jotka eivät ole relaatiokantapohjaisia eivätkä myöskään lähtökohtaisesti tue SQL-kieltä, kuten relaatiokannat. NoSQL tulkitaan usein ”Not Only SQL”.  Niissä on taulurakenteen sijaan jokin muu talletusrakenne kuten dokumentti-, ns. key-value -, tai graafirakenne. Esimerkkejä ovat MongoDB ja Neo4j. Tyypillisesti tehostavat jotakin operatiivisen toiminnan aluetta ja ovat usein paremmin skaalautuvia kuin relaatiokannat. Toisaalta relaatiokannat ovat vähitellen omineet monia NoSQL -kantojen piirteitä.

 

Pilvipalvelut (internetpalvelut, cloud computing) on järjestelmien, tietokantojen tai tiedostojen toimimista Internetissä palvelimissa,  vaihtoehtona organisaatioiden omille palvelimille. Tietovarastoalueella esimerkkejä ovat mm. Snowflake, Amazon Redshift,  Azure SQL Data Warehouse sekä useat BI-ohjelmistot. Olennainen Big Data -ratkaisuissa, talletuskustannusten pienennettyä merkittävästi; talletusratkaisuna tällöin usein Hadoop. Etuina nopea liikkeelle lähtö, helppo skaalautuvuus ylös ja alas ja maksu vain kulloinkin tarvittavista palveluista. Suurimpia pilvipalveluiden tuottajia ovat Amazon, Microsoft ja Google.

 

SQL-kieli  (SQL language) on ilmaisuvoimainen ja laajalle levinnyt, käytännössä ainoa kieli relaatiotietokantojen kyselyihin ja käsittelyyn. Kehitetty IBM:n laboratoriossa 70-luvulla. Ei-proseduraalinen 4. sukupolven kieli, jossa määritellään, mitä tietoja haetaan, ei siis sitä miten tiedot haetaan (sen päättää relaatiotietokantojen optimoija).  Myös Hadoopin ja monien NoSQL-tietokantojen päälle on tehty SQL-liittymiä. Toimii hyvänä rajapintana relaatiokantojen ja lukemattomien työkalujen välissä (esim. BI- ja ETL-tuotteet).

 

Relaatiotietokanta (relational database) on IBM:n tutkijan E.F. Coddin v. 1970 julkaistuun relaatiomalliin perustuva tietokantateknologia, joka alkoi syrjäyttää 90-luvulla aiempia tietokantatyyppejä. Relaatiokantojen käyttäminen tapahtuu SQL-kielen avulla. Lähes kaikki kaupalliset tietojärjestelmät ja myöskin tietovarastot on rakennettu relaatiotietokantojen päälle. Tiedot tallettuvat tauluihin, jotka muodostavat tietokannan. Yleisimpiä tuotteita ovat Oracle, SQL Server, MySQL, DB2 ja PostgreSQL. Tietovarastointiin erikoistuneita ovat mm. Teradata, Redshift ja Snowflake.

 

Tekoäly (artificial intelligence, koneäly, keinoäly) on usein kattotermi ohjelmalle tai algoritmille, jonka oppimisessa on ihmisen kaltaisia piirteitä. General AI:lla tarkoitetaan kehittynyttä oppimista ja ihmismäistä tiedonkäsittelyä – tällä tasolla ei olla vielä. Narrow AI:lla tarkoitetaan kapeampaa, mutta tällä hetkellä jo hyvin toimivaa tekoälyä. Sen käytännön sovellukset perustuvat analytiikan automatisointiin ilman, että ihminen ohjelmoi analytiikan toimenpiteet ja vaiheet erikseen.  Esimerkkejä ovat kasvojen- ja puheentunnistus ja kielen kääntäminen; tai tuotantolinjaa seuraava ohjelmisto oppii määrittelemään vikaantumista ennakoivat mittarit ilman ihmisen määrittelyä.

 

Tietoarkkitehtuuri (information architecture) on kokonaisarkkitehtuurin näkökulma, joka pyrkii tunnistamaan organisaation tietotarpeet strategisen, taktisen ja operatiivisen johtamisen tasoilla, ja kuvaa tiedon luokittelua, rakenteita, alkuperää ja virtausta prosesseissa ja tietojärjestelmissä. Tietoarkkitehtuuri tukee myös tiedon hallintaa ja jalostusta datasta informaatioksi ja tietämykseksi. Sitä käyttävät sekä tieto-, prosessi- että sovellusarkkitehdit.

 

Tiedonhallinta (data management) on kattotermi, joka sisältää datan hyödyntämisen liittyvän kehityksen, hallinnan, operaatiot sekä käytännöt koko tiedon elinkaaren ajan. Alueelle kuuluvat mm. datastrategia, data governance, käsitteiden mallintaminen, tietovarastointi, turvallisuusasiat, tietoarkkitehtuuri, talletusratkaisut ja tietojen laatu.

 

Tiedon mallinnus (data modeling ) on menetelmä kuvata tietoja ja niiden välisiä riippuvuuksia, tavoitteena suunnitella tietokannan rakenne. Yleensä käsitemallinnusta seuraava vaihe. Tietovarastojen suunnittelussa on käytössä erikoistuneita mallinnusmenetelmiä, kuten dimensionaalinen suunnittelu (tähtimalli) ja Data Vault.

 

Tietokanta (database) on toisiinsa liittyvien tietojen joukko talletettuna tavalla, jossa tiedot voivat olla yhteiskäytössä. Toteutettu tietokannan hallintajärjestelmällä (Database Management System), joista yleisimpiä ovat Oracle, SQL Server, MySQL, DB2, PostgreSQL ja MongoDB. Valtaosa nykyisistä tietokannoista on relaatiokantoja, pienehkö osa on NoSQL-kantoja; aiemmin käytössä myös ns. verkkomallisia ja hierarkkisia kantoja. Tyypillinen operatiivinen järjestelmä  koostuu ohjelma-osasta sekä taustalla olevasta tietokannasta.Tietovarastojen perustoteutustapa.

 

Tietovarasto (data warehouse, DW) on erillinen tietokanta, johon eri järjestelmissä hajallaan oleva data poimitaan ja ladataan raportointia,  analytiikkaa ja muuta käyttöä varten. Idea on yhdistellä datat ja tuoda ne saataville, helposti kyseltäviksi, esimerkiksi asiakkaan ns. 360 näkymä. Toteutus yleensä relaatiotietokannoissa, suunnittelussa omia menetelmiä kuten tähtimalli ja Data Vault. Kts. myös Data Platform. Tiedot tarkalla tasolla (ei summattuna) tyypillisesti  päivätasolla, tarvittaessa jopa reaaliaikaisena. Tietovaraston avulla voidaan hoitaa myös tietojen historiointi. Ei ole yksittäinen teknologia, vaan arkkitehtuuri.

 

Yritystason tietovarasto (enterprise data warehouse, EDW) on korporaatio- tai yritystason keskitetty tietovarasto, jossa ideana on yhdistää ja integroida tietoja laajasti yrityksen eri tietojärjestelmistä kokonaiskuvan saamiseksi. Tärkeää on laajennettavuus, eli vähitellen laajennetaan EDW:tä tuomalla sinne eri organisaatioyksiköiden järjestelmien datoja. Edellyttää hyvää suunnittelua eli datakartoitusta sekä käsite- ja tietomallinnusta.

 

Ystävällisin terveisin,

Ari Hovi & tiimi

 

Ps. Data Vaultin kehittäjä itse Dan Linstedt tulee jälleen Suomeen kouluttamaan!

 

Data Vault 2.0 Bootcamp + Sertifiointi 4.9 – 6.9.2018, Helsinki

 

Data Vault -menetelmä on nyt suositumpi kun koskaan, joten nyt kannattaa tulla mukaan. Sertifiointi on myös paras tapaa tuoda esiin henkilöstösi osaaminen. Paikkoja on rajatusti, joten kannattaa olla nopea.

 

Lisätiedot ja ilmoittautuminen tästä

Jaa:

Kommentoi:

Haluatko uusimmat uutiset ja kurssitiedot Arihovista?

Tilaa uutiskirje

Tyrehdytä tiedonjanosi!

Uutiskirjeen tilaajana saat ajankohtaista tietoa datan hyödyntämisestä, tekoälystä sekä muista ajankohtaisista aiheista tiedohallinnan maailmasta. Olemme data-alan johtava kouluttaja ja konsultti, joten saat tietoa suoraan kentältä. Saat samalla myös parhaat tarjoukset kansainvälisten huppuasiantuntijoiden valmennustilaisuuksiin.