26.01.2016

Murtuvatko tietovarastojen perinteet?

 

Perinteinen tietovarastointiratkaisun kaava DB + ETL + BI ei toimi enää. Modernia tietovarastoa ei voi rakentaa tietokannalla, integraatiotyökalulla ja raportointivälineellä, koska siltä vaaditaan paljon enemmän kuin mitä perinteinen ratkaisumalli pystyy tarjoamaan. Tietovaraston sijaan kuvaavampaa olisikin puhua useista erilaisista rakennuspalikoista koostuvasta ”data platformista”, suomennettuna vaikkapa tietoalustasta, joka palvelee huomattavasti entistä moninaisempia käyttötarpeita ja käyttäjäryhmiä.

dl

 

Vanha jako operatiiviseen ja analyyttiseen tiedonhallintaan sekä mielikuva tietovarastoinnin kuulumisesta jälkimmäiseen on hämärtynyt. Moderni tietoalusta toimii tarvittaessa reaaliajassa. Se prosessoi erilaisten operatiivisten järjestelmien synnyttämiä tietovirtoja ja tuottaa reaaliaikaista palautetta takaisin operatiivisiin järjestelmiin sekä visualisoituja reaaliaikaisten analyysien tuloksia loppukäyttäjille. Tietoalustoilla on monissa tapauksissa myös keskeinen operatiivinen rooli yhtenäisen asiakaskokemuksen mahdollistajana eri asiakaspalvelukanavien välillä. Ne palvelevat interaktiivisesti sekä organisaatioiden sisäisiä että ulkopuolisia käyttäjäryhmiä yhdistäen ja analysoiden reaaliaikaisesti eri tietolähteiden tietoja.

Tietokannat, integraatiotyökalut ja raportointivälineet kuuluvat edelleen modernin tietoalustan keskeisiin rakennuspalikoihin. Nämä eivät kutenkaan enää yksistään riitä monipuolistuvien käyttötarkoitusten ja käyttäjäryhmien palvelemiseen. Uudenlainen kysyntä on luonut uudenlaista tarjontaa. Rakennuspalikoiden kirjon ovat viime vuosien aikana mullistaneet pilvipohjaiset infrastruktuuripalvelut (IaaS), alustapalvelut (PaaS) ja ohjelmistopalvelut (SaaS), NoSQL-tietokannat, hajautetut tietokannat, big data –teknologiat kuten Hadoop sekä ennustavan analytiikan työkalut.

Edellä mainituista rakennuspalikoista tietoalustojen kannalta erityisen kiinnostaviksi ovat muodostumassa PaaS- ja SaaS-pilvipalvelut. Nämä tarkoittavat palvelumuotoiseksi tuotteistettuja sovellusalusta- ja loppukäyttäjäohjelmistoja kuten Hadoop, tietokannat ja –varastot sekä ETL- ja tiedon visualisointityökalut. Aivan kuten IaaS-tason pilvipalveluilla, myös PaaS/SaaS-palveluilla saavutetaan merkittäviä tuottavuusetuja. Ne mahdollistavat monipuolisten, markkinoiden parhaiden ohjelmistoratkaisujen käyttöönoton ilman merkittäviä alkuinvestointeja sekä niiden käytön murto-osalla itse ylläpidettävien ohjelmistojen käyttökustannuksista. Ne tukevat siis erityisen hyvin mm. ”start small, scale fast” -toimintamallia. Esimerkkeinä tämän hetken kiinnostavimmista tiedonhallinnan PaaS-ratkaisuista voidaan mainita julkisten pilvipalveluiden markkinajohtajien Amazonin ja Microsoftin ”DW-as-a-Service” -tuotteet AWS Redshift ja Azure SQL Data Warehouse.

Viime vuosien tietovarastointiratkaisujen uusinta- ja modernisointihankkeissa on ollut merkillepantavaa havaita neljä selkeää suuntausta, jotka toistuvat ratkaisuissa poikkeuksetta yli toimialarajojen:

  1. Tietoalustan perustana EDW-tietovaraston rinnalla on Hadoop-ekosysteemin teknologioihin perustuva, Data Lake -mallin mukainen tiedon varastointi- ja käsittelyalusta, jonka rooli kasvaa jatkuvasti Hadoop-ekosysteemin nopean kehityksen myötä. Kirjoitin tästä tarkemmin aiemmin ks. https://www.arihovi.com/hadoopin-rooli-tietovarastoinnissa.
  2. Tietoalustan infrastuktuuri eli prosessointi-, tietoliikenne- ja tallennuskapasiteetti pohjautuu julkisiin pilvipalveluihin. Pilvipalveluihin ei enää liitetä todellisia riskejä ja uhkia harvoja poikkeuksia lukuun ottamatta vaan niiden ylivertaiset edut perinteisiin infrastruktuuriratkaisuihin verrattuna korostuvat valinnoissa.
  3. Tietoalustan tietovarastointi-, ETL- ym. ohjelmistoratkaisut pohjautuvat yhä useammin pilvipohjaisiin PaaS- ja SaaS-palveluihin. Vielä toistaiseksi PaaS/SaaS-ratkaisujen suppeammat ominaisuudet verrattuna vastaaviin, itse ylläpidettäviin ohjelmistotuotteisiin ohjaavat valintoja perinteisiin tuotteisiin. Painopiste on kuinkin siirtymässä kohti PaaS/SaaS-mallia.
  4. Ennustava analytiikka on yksi keskeisimpiä tietoalustan käyttötarkoituksia ja data scientistit yksi keskeisimpiä käyttäjäryhmiä. Suuntaus ennustavan analytiikan hyödyntämiseen on selkeä kaikilla toimialoilla, mutta sen käyttökohteet vaihtelevat toimialoittain ennakoivasta kunnossapidosta perinteisillä teollisuudenaloilla tuotevalikoiman ja logistiikan optimointiin vähittäiskaupassa.

Modernin tietoalustan toteuttaminen yhdeltä toimittajalta hankitulla integroidulla ohjelmistotuoteperheellä on harvoin mahdollista. Tosin julkisten pilvipalveluiden tarjoajat kuten Amazon, Microsoft, Google ja IBM ovat tuoneet markkinoille uudentyyppisen, pilvipalveluihin pohjautuvan palvelukategorian, joka mahdollistaa koko tietoalustan toteutuksen one-stop-shop-periaatteella alimman tason infrastruktuuria myöten.

Toimittajien ja ratkaisujen valintaa kuvaa erinomaisten, mutta myöskin erilaisten, toinen toistaan parempien vaihtoehtojen runsaus ja tästä aiheutuva valinnan vaikeus. Toimittajien ja ratkaisujen valinnassa tulisi huomio siirtää pois siitä, mitä ominaisuuksia eri vaihtoehdot tarjoavat tällä hetkellä ja miten ne vastaavat tiedossa oleviin tarpeisiin. Sen sijaan huomio tulisi keskittää siihen, kuinka hyvin niiden arvioidaan kykenevän vastaamaan uusiin, monipuolistuviin tarpeisiin tulevaisuudessa. Vaatimukset ja tarpeet kehittyvät joka tapauksessa jatkuvasti eivätkä perinteiset ajattelumallit tarkan tason vaatimusten määrittelemisestä ja jäädyttämisestä johda menestykseen tietoalustojen kehittämisessä.

Vauhdilla kehittyvät ratkaisut eivät ole vähentämässä eivätkä edes helpottamassa tietovarastoinnin asiantuntijoiden työtä vaan päin vastoin. Kehityksen perässä pysyminen käy työstä. Gartner nostaa raportissaan Insights From the 2016 Gartner CIO Agenda Report (https://www.gartner.com/imagesrv/cio/pdf/cio_agenda_insights_2016.pdf) suurimmaksi CIO:iden menestyksen esteeksi “talent issues” ja toteaa, että ”The biggest talent gaps are around information — big data, analytics, and information management”. Kiinnostavia ammatillisia haasteita on siis luvassa kaikille alalla toimiville!

Karri vetää Big Data aihealueen uutuuskurssina Datalake -käytännössä kurssin 10.03.2016 – 11.03.2016 Helsinki. Lisätietoa tästä

Muita Karri Pulkkisen avoimia kurssitilaisuuksia:

Big Data -projektin käynnistys 07.03.2016, listätietoa tästä

Hadoop-peruskurssi 08.03.2016, lisätietoa tästä

 

Saattaisit olla kiinnostunut myös näistä

Tiedonhallinnan alueen suuria nimiä

Lue lisää

Uudistamme laajasti Ari Hovin koulutuksia ja toimintaa

Lue lisää

Vältä hypetystä ja irrallisia valintoja, kun kokoat teknologista työkalupakkia vaihtoehtojen valtamerestä

Lue lisää