11.11.2019

Big Data ei kadonnut, vaikka siitä ei enää puhuta

Hei,

Sain paljon palautetta business intelligenceä koskevasta blogistani.

Kerroin kuinka BI:tä myytiin ehkä turhan suurin lupausten siivittämänä. Siitä huolimatta tarve BI:lle on suurempi kuin koskaan.

Tällä kertaa käsittelyyn joutuu vanha hype-termi big data. Tuo kaikkien data-hypetysten äiti.

Muistatteko kun kaikkialla puhuttiin big datasta?

Sitä hehkutettiin samaan tapaan kun nyt tekoälyä. Myyntipuheet olivat samat, että big datalla ennustetaan tuotannon vikaantumista ja kuluttajan ostokäyttäytymistä.

Olet varmasti huomannut, ettei siitä enää puhuta. Onko big data edelleen voimissaan vai oliko se pelkkää hypeä?

Big data ei ole kuollut, vaan päinvastoin se on muuttanut kuvioita pysyvästi.

Alustapalvelut tulivat

Datan hyödyntäminen analytiikassa ja raportoinnissa pyöri vuosikymmeniä ”pienemmän datan”, kuten talous- ja asiakasdatan ympärillä.

Jos mietitään yrityksen johtoa, niin mitä dataa se yleensä haluaa nähtäville? No tietysti myyntiä, kuluja ja katteita. Eli perinteistä talous-, asiakas- yms dataa.

Koko tietovarastointi, BI ja analytiikka on lähestulkoon pelkästään pyörinyt näiden alueiden ympärillä.

Sitten tuli Internet, joka periaatteessa muutti kaiken.

Isot alustapalvelut, kuten Google, Facebook ja Amazon rupesivat keräämään ja analysoimaan palvelujensa käyttäjien klikkidataa.

He halusivat tietää, miten ihmiset käyttävät heidän ohjelmistojaan. Ja tarkalla klikkaustasolla.

Kehitettiin uusia teknologioita ja Hadoop tuli mukaan kuvioihin.

Hadoop ei ole relaatiotietokanta, vaan hajautettu tiedostojärjestelmä. Sinne on siis helppo tallettaa mitä vaan dataa, kuten C-levysi hakemistoihin.

Koska käyttötapa ei vaatinut samanlaista täsmällisyyttä, virheettömyyttä ja nopeaa kyselyn vastausaikaa, kun vaikka pankkien järjestelmät, Hadoop toimi hyvin.

Hadoop oli jotain uutta ja erikoista. Mekin järjestimme kursseja sen ympärille täysille saleille.

Digitalisaatio – datan ehtymätön lähde

Todettiin, että on olemassa erilaista dataa ja erilaisia käyttötapoja. Mitä erilaista dataa sitten on?

Hyvä testi asialle on, että jos sinulla on dataa, niin pistäisitkö sen Exceliin?

Esim myynnit, kulut ja työtunnit varmasti laittaisit sinne.  Tämän tyyppistä dataa kutsutaan strukturoiduksi dataksi. Relaatiokannat on suunniteltu stukturoidun datan talletukseen ja käsittelyyn.

Mutta sitten on videokuvaa, tekstiä tai esim netin käytöstä syntyvää klikkausdataa.

Tämän tyyppinen data ei olekaan Exceliin sopivaa, joko rakenteensa tai kokonsa vuoksi. Sitä kutsutaan stukturoimattomaksi dataksi. Tai  juuri big dataksi (sen määrän vuoksi).

Vuosien saatossa tilanne kiihtyi. Alykännykköjen vuoksi isojen alustafirmojen datamäärät räjähtivät käsiin vuodesta  2007 lähtien.

Relaatiokannat eivät soveltuneet tähän lainkaan yhtä hyvin kun Hadoop, joka lisäksi on huomattavasti halvempi talletusalusta.

Samaan aikaan kuvat ja videot muuttuivat lähes täysin digitaaliseksi. Nettiin kytkettiin myös laitteiden sensoreita. Alettiin puhua internet of things (IoT) -alueesta.

Digitalisaation jättimäinen aalto pyyhkäisi läpi maailman jättäen jälkeensä valtavan määrän dataa. Lentoliput, hotellivaraukset, Spotify, verkkokauppa, Netflix, Whatsapp, googlehaku..

Lista on loputon. Kuten on myös big datan määrä.

Ja  yhtäkkiä meillä olikin teknologioita sen tallennukseen ja analysointiin.

Koulukuntien mittelö

Koko big datan, eli vaikkapa nettidatan tai videodatan tallennus ja analysointi oli pitkään irrallaan perinteisestä tietovarastoinnista.

Markkinoille tulivat Cloudera, Hortonworks ja Mapreducen tapaiset startupit. Ne saivat satumaisia rahoituksia Piilaaksossa.

Big data oli kaikkien huulilla samaan tapaan kun tekoäly nyt. Perinteiset tietokantatoimittajat olivat ihmeissään.

Alkoi kahden koulukunnan mittelö. Monien mielestä Hadoop oli kehittyneempi versio relaatiokanta-pohjaisista tietovarastosta.

Vaikka kyse oli edelleen datan varastoinnista ja hyödyntämisestä, sitä tekivät eri ihmiset eri filosofialla.

Koodaajat marssivat rinta rottingilla konsulttifirmojen käytävillä ja katsoivat nenää pitkin relaatiokantojen kanssa työskenteleviä. Mitä dinosauruksia, se sanoivat.

Uusi tapahtuma Slush innoitti startuppeja kehittämään big data-ratkaisuja ja uusia facebookkeja.

Ennen niin hieno relaatiokantoja kehittänyt perinteinen toimija Teradata tuntui kun keski-ikäinen olisi pärähtänyt Kallion trendibaariin.

Kyseessä oli sukupolvien välinen ero, mutta myös turhautuminen vanhan liiton tietovarastoihin.

On hieman ironista, mutta kun relaatiokannat aikanaan tulivat, nekin olivat hypetettyjä.

Puhuttiin paljon EDW:stä, eli enterprise datawarehousingista, ja että pian kaikilla on yksi purkki, jonne kaikki datat säilötään.

Tämä visio ei kuitenkaan aivan toteutunut. Niitä tehtiin kun Iisakin kirkkoa ja monet pettyivät; EDW:n rakennus oli sittenkin pirullisen hankalaa.

RIP Big Data

Big datan kanssa kävi kuten relaatiokantojen ja tekoälyn; todellisuus iski päin kasvoja.

Hadoop ja monet muut open source -teknologiat edellyttivät paljon nörttitason koodausosaamista. Isoilla organisaatiolla ei ollut sitä, eikä osaajia ollut työmarkkinoilla.

Monet big data -kokeilut epäonnistuivat juuri siksi. On eri asia ostaa systeemin pystytys pieneltä erikoisosaajien firmoilta, kun ylläpitää tuotantoa ilman ison toimittajan tukea.

Yritykset kuten Cloudera ja Hortonworks tarjosivat kyllä tätä tukea, mutta se riittänyt.

Vähitellen myös perinteisemmät tiedonhallinnan toimijat pääsivät mukaan big data -junaan ja tunnustivat sen hyödyt. If you can´t beat them, join them.

Alettiin puhua Hadoopin sijasta Data lake -konseptista (tietoallas), joka on arkkitehtuuriratkaisu datan säilömiseen raakamuodossa.

Hadoop miellettiin entistä enemmän ei tietovaraston korvaajana, vaan osaksi data-arkkitehtuuria.

Lopulta Microsoft ja AWS ottivat big data teknologiat osaksi omia tuotteitaan ja panostivat helppokäyttöisyyteen.

Clouderan ja Hortonworksin markkina ei enää kasvanutkaan. Tämän johdosta ne yhdistyivät ja niiden rooli pienentyi.

Myös muut toimijat joutuivat vaikeuksiin ja alettiin puhua big datan kuolemasta. RIP big data, Piilaaksossa sanottiin kesäkuussa 2019.

Hadoop-vetoisen big datan aika oli ohi.

Pilvipalvelut ja big data

Big Datan yhteys pilvipalveluun oli alusta asti olennaista, mutta lopulta ne muuttuvat ikään kuin samaksi asiaksi: se kuka pystyy tarjoamaan kehittyneimmät pilvipalvelut, ottaa haltuun myös big datan.

Nyt AWS johtaa peliä, Azure on heti kakkosena.

Tekoälyyn ja koneoppimiseen liittyvät teknologiat ovat kehittyneet rinta rinnan big datan kanssa.

Itse asiassa juuri big data teknologioiden kehittyminen mahdollisti uudet koneoppimis-algoritmit.

Koko tekoäly konsepti ikään kuin pitää sisällään big datan, ne sulautuvat yhteen.

Big data hiipui Gartnerin hype-käyrältä ja termi rupesi kuulostamaan vanhanaikaiselta. Uudet tuulet puhalsivat tietojohtamisen rintamalla.

Yhtäkkiä kaikki alkoivat puhua uudesta tulokkaasta, Snowflakesta.

Se on relaatiopohjainen tietovarasto pilvessä – ei siis mikään big data-viritys.

Snowflake on juuri nyt supertrendikäs ja vie markkinoita kun pässiä narussa.  Eikä ihme, se on todella hyvä tuote.

Näin se homma menee. Se mikä oli poistunut muodista, tulee aina uudestaan takaisin.

Snowflake oli LinkedInissä valittu nuorten halutuimmaksi työpaikaksi Yhdysvalloissa..

Ajatelkaa, koko amerikan IT-nuoriso haluaa tietovarastofirmaan tekemään relaatiokantoja!

Totta kai kyse on siitä, että tietovarastoteknologiat, kuten Snowflake, ovat kehittyneet. Se on täysin pilvipohjainen, erittäin skaalautuva ja sisältää tukea myös big data -tyyppiselle datalle.

On ilmaantunut myös tietovarastoinnin automaatiotyökaluja kuten WhereScape ja Agile Data Engine, jotka nopeuttavat prosessia.

Ellie-mallinnustyökalulla voidaan tehdä liiketoimintalähtöinen datamalli, josta on integrointeja näihin automaatiotyökaluihin.

Se mihin ennen tarvittiin paljon manuaalista työtä, hoituu nyt automaattisesti.

Big data on edelleen mukana, mutta termiä big data ei enää käytetä. Se on arkipäiväistynyt ja hoituu tietoaltaan (data lake) ja myös Snowflake-tyyppisten tuotteiden avulla

Datan hyödyntämisen monet kasvot

Big data hypen suurin ansio oli mielestäni se, että se toi data-asiat johtajien pöydälle. Ensimmäistä kertaa datasta kiinnostui muutkin, kun IT-osaajat.

Ymmärrettiin, että datan hyödyntäminen on muutakin kun talousdatan raportointia.

Sen vuoksi dataa käytetään nykypäivänä yhä monipuolisemmin.

Yritys hyödyntää tietovarastoa tuotteen katteen laskemiseen, data scientisti ennustaa syövän uusiutumista röntgenkuvien analyysillä.

Startup-yrittäjä taasen kehittää tekstin analyysiin perustuvaa chatbottia.

Minusta mielenkiintoinen kysymys on se, että onko datan hyödyntäminen eri tarkoituksiin luonteeltaan niin erilaista, ettei voi puhua edes data-alasta?

Jos mietitään isoa organisaatiota, sanotaan vaikka vähittäiskauppaa.

Sillä on talous-, verkkokauppa-, ja videodataa. Nämä ovat hyvin erilaista dataa ja käyttötapa on eri, mutta silti ne on dataa. Ykkösiä ja nollia.

Modernissa yrityksessä tulisi olla ikään kuin datatehdas, joka tuottaa ja jalostaa dataa eri käyttötapauksiin.

Mikäli dataprojektien vetäminen ja sekä Ellien maailmalle vieminen kiinnostaa enemmänkin, niin suosittele kaveria tai itseäsi meille töihin, nyt on mielenkiintoinen paikka tarjolla!

Tähän kirjoitukseen liittyen meillä on muuten mielenkiintoinen uusi kurssi tulossa big datasta ja tietovarastosta pilvessä.

Kurssi liittyy juuri tämän blogin aiheeseen, vetäjänä big datan ja tietovarastoinnin erikoismies Uli Bethke Irlannista.

Kuten kirjoituksessa käy ilmi, aihe on ajankohtainen, katso alta lisätiedot ja mieti että kiinnostaisiko osallistua.

Ystävällisin terveisin,
Johannes Hovi

Big Data for Data Warehouse and Business Intelligence Professionals 03.12.2019

Tietovarasto pilvessä on ehkä tämän syksyn kuumin trendi, nyt siitä puhuvat kaikki. Nyt järjestämme ensimmäistä kertaa aiheen tiimoilta koulutuksen!

Pilvipalvelujen kehittyminen mahdollistaa big datan hyödyntämisen osana tietovarastoarkkitehtuuria entistä tehokkaammin. Lastentaudeista on päästy eroon ja ratkaisut on tuotteistettu.

Koulutuksessa opit myös lisää tietoaltaista (data lake) ja miten hyödyntä reaaliaikaista analytiikkaa (real time analytics) päätöksenteossa.

Uli Bethke on alan huippuasiantuntija ja tulee nyt ensimmäistä kertaa Suomeen valmentamaan aiheesta. Hän on Irlannin DAMA:n Vice President sekä aktiivinen data-alan kehittäjä.

Lue lisää koulutuksesta tästä

Saattaisit olla kiinnostunut myös näistä

Data Lakehouse -projektit käytännössä: Kokemuksia asiantuntijoilta

Lue lisää

Eettinen tiedonkäyttö: Vastuullisuuden peruspilarit

Lue lisää

Tieto on valtaa – ja vastuuta

Lue lisää