09.05.2023

Tiedonhallinnan alueen suuria nimiä

Hei,

Kehitystyö ja keksinnöt tehdään usein tiimityönä. Tiedonhallinnan alueella on kuitenkin muutamalla henkilöllä ollut valtava vaikutus alan kehitykseen. Esittelen tässä blogissa näitä tiedonhallinnan historian Einsteineja sekä myös minkälaista vaikutusta heillä on ollut omaan uraani ja töihini konsulttina.

 

Tietokannat

Ehkä suurin nimi on Ted Codd, jonka kehittämä ja vuonna 1970 julkaisema relaatiomalli muodostaa koko nykyisen tietokantateknologian kivijalan. Jokainen meistä käyttää päivittäin sovelluksia, joiden takana pyörii Coddin ajatusten mukainen relaatiokanta, sellaisilta toimittajilta kuten Microsoft, Oracle, Amazon tai uudemmista Snowflake. Yhdellä ihmisellä on ollut valtava vaikutus!

Idea on tieteellisesti vankka ja samalla yksinkertainen (kuten kaikki parhaat teoriat): tiedot talletetaan  tauluihin sarakkeina ja riveinä ja niitä käsitellään joukko-opillisesti.  Lisäksi Codd määritteli kaikkien tietokantasuunnittelijoiden tuntemat taulujen normalisointisäännöt.

Suunnittelin aikanani pankkitietokantoja vanhalle IBM:n DL/1 -tietokantajärjestelmälle. Samaan aikaan alkoi ilmaantua edistyksellisimpä relaatiokantoja – no, aiheeseen piti heti perehtyä. Muutaman vuoden kuluttua yksi päätyöni oli kouluttaa ja konsultoida uuden relaatiokannan käyttöä. Sain myös kunnian tavata itse Ted Coddin hänen kurssillaan vuonna 1987.

 

SQL -kieli

Donald D. Chamberlin ja Raymond F. Boyce kehittivät SQL-kielen (Structured Query Language) 1970-luvun alussa Coddin kehittämän relaatiokannan tehokkaaseen käsittelyyn. SQL on sittemmin standardoitunut kaikkien toimittajien tukemaksi ja maailman eniten käytetyksi neljännen sukupolven kieleksi. SQL:n kuolemaa on välillä ennustettu, mutta se voi paremmin kuin koskaan; ei edes oikein ole vaihtoehtoja.

KOP-pankissa ollessani saimme ensimmäisen PC:n koekäyttöön 80 -luvun puolivälissä, se oli IBM. Kokeilin mukana tullutta  Oracle-tietokantaa (versio 4). Olin innostunut kuin pikkupoika kaivinkoneen kahvoissa – miten helppoa ja hauskaa tietokannan käsittely SQL-kielellä voi ollakaan! Siitä alkoi elinikäinen SQL-kiinnostukseni, joka on poikinut SQL-kirjoja ja satojen SQL-kurssien pitämisen.

 

Käsitemallinnus

Taiwanilais-amerikkalainen Peter Chen kehitti käsite- ja tiedon mallinnuksen ideat v. 1976, esittäen mallit selkeinä graafisina kaavioina. Chenin uraa uurtava entity-relationship model on ollut pohjana nykyisin yleisesti käytettyyn ER-mallinnusmenetelmään. Hyvä käsite- ja tiedon mallinnus on kaikkien onnistuneiden sovellus- ja tietovarastohankkeiden perusta.

Tutustuin käsitemallinnukseen tehdessäni gradua alueen eri menetelmistä. Sittemmin käsite- ja tiedon mallinnus on ollut suuri ja supermielenkiintoinen osa konsultin tehtäviäni. Johannes Hovin luotsaaman Ellie Technologies Oy:n Ellie-mallinnustyökalu perustuu sekin nykyaikaisessa muodossa Chenin ajatuksiin.

 

Taulukkolaskentaohjelmat

Opiskelijat Dan Bricklin ja Bob Franston kehittivät ensimmäisen taulukkolaskentaohjeman, VisiCalicin vuonna 1978. Kaikki tiedämme Excelin ja muiden vastaavien valtavan käytön ja merkityksen nykyaikana. VisiCalcissa oli jo aivan sama, meidän kaikkien tuntema perusidea, joka siis syntyi kahden ihmisen toimesta.  Olisiko Nobel-palkinto paikallaan!

Kokeilin uutta Multiplan- taulukkolaskentaohjelmaa yllä mainitsemallani KOP-pankin PC:llä n vuonna 1985.  Se tuntui kätevältä ja tein sillä tekniikkaosaston budjettia. Taisi olla ensimmäinen taulukkolaskimella tehty budjetti pankissa.

 

Tietovarastointi

Bill Inmoniin liitetään usein termi ”father of data warehousing” – tosin termin Business Data Warehouse esitteli Barry Devlin jo aiemmin (hän oli meillä kouluttamassa ja kertoi olevansa ”Grandfather of Data Warehousing”).  Inmon alkoi 90-luvun alussa konsulttina ja tuotteliaana kirjailijana levittää tietovarastoajattelun konsepteja ja toimii alalla edelleen. Hänen vaikutuksensa tietokeskeiseen ajatteluun on merkittävä.

Tutustuin Inmoniin hänen lukuisten kirjojensa kautta. Tosin jo ennen sitä olin konsultoinut alueilla, joita kutsuttiin termeillä infokannat ja päätöksenteon tukijärjestemät. Omaan ajatteluuni vaikutti myös konsulttikollega Miikka Jahnukainen. Hän oli aikaansa edellä puhuessaan jo silloin ”kyselytietokannoista”.

 

Tähtimallisuunnittelu

Ralph Kimball julkaisi 90-luvun puolivälissä tietovarastojen dimensionaalisesta suunnittelusta kirjan. Hänen opeillaan pystyttiin luomaan helposti kyseltäviä tähtimallin mukaisia taulurakenteita relaatiokantaan. Tietovaraston tiedot saatiin näin julkaistua laajalle käyttäjäkunnalle. Kimballin esittelemät dimensio- ja faktataulut tulivat jäädäkseen ja ova tuttuja kaikille raporttien tekijöille.

Opiskelin alusta saakka Kimballin opit ja matkustin myös hänen kurssilleen. Tähtimallien suunnittelu on ollut tärkeä osa konsultin työtäni.

 

Data Vault

Dan Linstedt kehitti 2000-luvun alussa tietovarastojen suunnittelumallin ja antoi sille nimeksi Data Vault. Dan kertoo että hän ”seisoo jättiläisten hartioilla”, tarkoittaen että hänen kehitystyönsä perustuu Coddin, Inmonin ja Kimballin ajatuksiin. Näinhän kulttuuri kehittyy: uudet innovaatiot rakentuvat edellisten pohjalle. Danin Data Vault -mallin käyttö laajenee parhaillaan eri puolilla maailmaa.

Minua kiinnosti mallinnuskonsulttina uusi mallinnusmenetelmä, etenkin kun se oli nimenomaan tarkoitettu tietovarastoalueelle. Osallistuin eräälle Dan Linstedtin ensimmäisistä Euroopan kursseista Hollannissa. Sittemmin ryhdyimme Danin kanssa yhteistyöhön ja olemme pitäneet Danin kursseja jo yli 10 vuoden ajan.

 

Lopuksi

Tiedonhallinnan alueella on paljon uutta mielenkiintoista kehitystä, Data Mesh, tekoälyn vaikutukset, pilvikehitys, Data Product -ajattelu jne.

On hyvä kuitenkin muistaa taustat ja perusideat. Mielenkiintoisesti monet nykyisinkin keskeisesti vaikuttavat rakenteet, ajattelutavat ja työkalut ovat muutamien yksilöiden kehittämiä.

Ystävällisin terveisin,

Ari Hovi

Ps. Muistathan ilmoittautua kevään viimeiselle Data Vault-kurssille!

Data Vault 2.0 Bootcamp + Certification

Auktorisoitu Data Vault 2.0 -kurssi yksinoikeudella jälleen Ari Hovilta! Saat sertifikaatin itsellesi kurssin päätyttyä.

Lisätiedot ja ilmoittautuminen tästä.

 

Saattaisit olla kiinnostunut myös näistä

Uudistamme laajasti Ari Hovin koulutuksia ja toimintaa

Lue lisää
Ketterä kehitys

SQL perusteet

Lue lisää
Datan hallinta

Data Vault 2.0 Bootcamp + Certification

Lue lisää