Hadoopin rooli tietovarastoinnissa

Sanotaan että big data muuttaa kaiken. Tätä näkemystä tukee muun muassa se, että vuoden 2013 Bilderberg-kokouksen agendalla oli perinteisten maailmanpoliittisten kestoaiheiden rinnalla kohta ”How big data is changing almost everything”. Big data ja sen analysointi ovat myös nousseet viime vuosina johtoryhmätason agendalle lähes organisaatiossa kuin organisaatiossa. Tiedon rooli on selvästikin kasvattanut merkitystään 2010-luvulla yritysten liiketoiminnassa, julkisten ja yleishyödyllisten organisaatioiden toiminnassa ja monessa muussa.

Korostunut tiedon rooli on heijastunut muutoksina organisaatioiden tietovarastointiin ja vienyt sitä eteenpäin viime vuosina nopeammin kuin koskaan aikaisemmin. Tietovarastojen koot ovat kasvamassa uusiin suuruusluokkiin eikä kasvuvauhdille ole loppua näköpiirissä. Tietovarastojen kyky käsitellä ja varastoida erityyppistä tietoa on monipuolistunut erityisesti epästrukturoidun tiedon kuten esimerkiksi vapaamuotoiset tekstit, kuvat, äänet ja videot osalta. Tietovarastot ovat myös vähitelleen muuttumassa entistä nopeammiksi ja reaaliaikaisemmiksi.

Tietovarastointi on mennyt eteenpäin uusien menetelmien ja teknologoiden vauhdittamana. Näistä Hadoop on yksi merkittävimpiä ja viime vuosina eniten huomiota saaneita teknologioita. Se on syntynyt tarpeesta varastoida ja käsitellä useita kertaluokkia aikaisempaa suurempaa määrää tietoa paremmin, nopeammin ja edullisemmin.

Hadoop soveltuu erityisen hyvin organisaationlaajuisen keskitetyn tietovaraston alustaksi, koska se on samanaikaisesti sekä tiedon tallennus- että prosessointialusta, ja se hoitaa nämä kaksi päätehtäväänsä luotettavasti ja kustannustehokkaasti kaikentyyppisen tiedon osalta. Tämän ominaisuutensa vuoksi Hadoop yksinkertaistaa ja nopeuttaa merkittävästi monista eri lähteistä hankittavien, erilaisissa muodoissa olevien tietojen keräämistä, yhdistelyä ja analysointia verrattuna perinteisesti käytettyihin teknologioihin.

Hadoopin mitattavat hyödyt voidaan kiteyttää sen kustannustehokkuuteen ja time-to-market-etuihin. Kustannustehokkuutta voidaan mitata esimerkiksi laskemalla tallennuksen ja prosessoinnin kokonaiskustannuksia per teratavu per vuosi. Mittari soveltuu parhaiten suurivolyymiselle, jalostamattomalle raakatiedolle, joka voi muodostaa yli 90 % organisaation kokonaistietomäärästä. Hadoopilla on saavutettu jopa kymmenkertaisia säästöjä verrattuna perinteisiin tietovarastointiteknologioihin, mikä onkin jo johtanut perinteisen tietovarastointiteknologian merkittäviin hinnanalennuksiin. Time-to-market-etuja voidaan mitata esimerkiksi seuraamalla ad-hoc-analyysien tai uusien tietolähteiden integroinnin kokonaisläpimenoaikaa, ts. uudesta tietolähteestä hankittavan tiedon lisäämistä tiedon hyödyntäjille tuotettavaan raportointiin. Esimerkiksi useissa organisaatioissa ad-hoc-analyysien läpimenoaikoja on voitu puristaa Hadoopin avulla useista viikoista muutamiin tunteihin. Käytännössä Hadoop on siis mahdollistanut ketterän ad-hoc-analytiikan, mikä aiemmin ei ole ollut pitkien toimitusaikojen ja suurten kustannusten vuoksi mielekästä.

SAS Instituten tänä vuonna suorittaman kyselytutkimuksen mukaan joka kymmenes suurista suomalaisista organisaatioista käyttää jo Hadoopia osana data-arkkitehtuuriaan. Viisi kuudesta organisaatiosta joko käyttää jo Hadoopia tai vähintäänkin aikoo arvioida Hadoopin käyttöä omassa arkkitehtuurissaan. Suurimmalle osalle organisaatioista siis kysymys Hadoopin roolista tietovarastoinnissa on tällä hetkellä ajankohtainen.

Yksinkertaistettuna Hadoopin roolille tietovarastointiarkkitehtuurissa on kolme vaihtoehtoa. Joko sillä ei ole mitään roolia, se täydentää muita ratkaisuja tai tietovarastointiarkkitehtuuri pohjautuu ensisijaisesti Hadoop-alustaan. Ensisijaisesti Hadoopiin perustuvat tietovarastointiarkkitehtuurit ovat vielä harvinaisia, mutta viime vuosina niistä on alkanut tulla julkisuuteen esimerkkejä myös suomalaisissa organisaatioissa. Useimmiten Hadoop kuitenkin täydentää muita tietovarastointiratkaisuja korvaten mahdollisesti joitain olemassa olevia osaratkaisuja. Hadoop soveltuukin hyvin olemassa olevan tietovaraston modernisointiin täydentämällä sitä ominaisuuksilla, jotka eivät ole olleet oleellisia perinteisessä tietovarastoinnissa, mutta joita nykyaikaiselta tietovarastolta odotetaan, kuten ei-strukturoidun raakatiedon tallennus ja käsittely, suorituskykyä vaativien ETL-prosessien suorittaminen sekä tiedon arkistointi ja historiointi. Usein Hadoopilla toteutetaan olemassa olevan tietovaraston rinnalle ns. Data Lake -konsepti, joka täydessä laajuudessaan toteuttaa kaikki edellä mainitut yksittäiset Hadoopin roolit.

Data Lake tarkoittaa mallia, jossa Hadoop toimii organisaation kaiken raakatiedon keskitettynä varastona. Hadoop toimii tällöin perinteisin tietovarastointitermein ilmaistuna eräänlaisena staging-alueena, johon kaikki raakatieto eri tietolähteistä ”kaadetaan” sellaisenaan selvittämättä etukäteen lähdetietojen sisältöä, formaattia, tarpeellisuutta ja käyttötarkoitusta. Data Lake toimii insert-only-periaatteella, eli uudet tiedot lisätään varastoon poistamatta tai päivittämättä aikaisemmin varastoon lisättyjä tietoja. Näin syntyy ajan mittaa muuttuvien tietojen historia. Data Lake –varastossa kannattaa hyödyntää Hadoopin prosessointivoimaa ja toteuttaa suorituskykyä vaativaa tietojen yhdistelyä, aggregointia ja muuta prosessointia ennen tietojen siirtämistä Data Lakesta tietovarastointiarkkitehtuurin muihin osaratkaisuihin kuten erimerkiksi datamartteihin. Data Lake tarjoaa myös organisaation data-analyytikoille keskitetyn tietovaraston ja työkalut toteuttaa ad-hoc-analyyseja, eksploratiivista analytiikkaa ja edistyneitä analyyttisia menetelmiä kuten ennakoivaa analytiikkaa ilman tarvetta käyttää aikaa tietojen keräämiseen eri tietolähteistä. Lienee sanomattakin selvää, että toimiva Data Lake -toteutus vaatii kehittyneen, pitkälle automatisoidun metatiedon hallinnan, jotta tiedon hyödyntäjät löytävät ”tietojärvestä” tarvitsemansa tiedot.

Tietovarastoinnin teknologiat ja tuotteet kehittyvät tällä hetkellä nopeammin kuin koskaan, mikä tekee tulevaisuuden ennakoinnista vaikeaa. Tällä hetkellä näyttää kuitekin hyvin todennäköiseltä, että Hadoop tietovarastointiteknologiana ei ole ohimenevä ilmiö vaan pitkällä tähtäimellä strategisesti merkittävä, relaatiotietokantateknologioihin verrattavissa oleva teknologia, jonka lähes jokainen organisaatio tulee ottamaan käyttöönsä, ennemmin tai myöhemmin. Näin ollen sellaiset organisaatioiden keskitetyt tietovarastointiratkaisut, joissa Hadoopilla ei ole mitään roolia, jäänevät vähemmistöksi seuraavan sukupolven tietovarastointiarkkitehtuureissa. Näitä näkemyksiä tukevat sekä Hadoopin teknologisia kilpailuetuja kiistävien mielipiteiden vähäisyys että globaalien tutkimusyhtiöiden kuten esimerkiksi Forresterin viimeaikaiset näkemykset asiasta.

Hadoopin kehitysvauhti rinnakkaisesta tiedontallennus- ja prosessointialustasta geneeriseksi datakäyttöjärjestelmäksi on ollut koko 2010-luvun hurja, samoin kuin ekosysteemin ja maailmanlaajuisen käyttäjämäärän kasvu. Jo tähän mennessä Hadoop on vienyt tietovarastointia ison askeleen eteenpäin. Teknologian elinkaari ja kehitysvauhti huomioiden sillä on kuitenkin vielä paljon enemmän annettavaa tulevina vuosina. Sanotaan että data on uusi öljy. Tähän voisi lisätä, että Hadoop on uusi öljynjalostamo.

Karri vetää kauttamme suositut kurssinsa:

Big Data-projektin käynnistys

Hadoop-peruskurssi

Hadoop-masterkurssi

Hadoopin rooli tietovarastoinnissa

Saattaisit olla kiinnostunut myös näistä

Datahankkeiden suurin ongelma ei ole teknologia – vaan yhteinen ymmärrys

Ville Niemijärvi: Data, hype ja tekoäly – mitä kannattaa oikeasti uskoa?

Semanttinen kerros AI-aikakaudella: miksi määritelmät ratkaisevat