Big Data ja Data Science
Big Data on tiedonhallinnan kuuma aihe, josta puhutaan sekä IT:n että liiketoiminnan puolella.
Gartnerin määritelmä on tässä: ”Big data are high-volume, high-velocity, and/or high-variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.”
Big Data tarkoittaa – nimensä mukaisesti - isoja tietomääriä. Niitä syntyy esim. ilmastotieteessä, geenitutkimuksessa ja interntissä. Kehitys erilaisten mittalaitteiden ja sensorien kohdalla on ollut todella kovaa ja näistä laitteista syntyy usein valtavasti tietoa. Tuttu esimerkki meilläkin on sähkön mittaus. Kun aiemmin mitattiin kerran vuodessa, mitataan nyt kerran tunnissa. Datan määrä kasvaaa räjdähdysmäisesti – mutta niin myös mahdollisuudet hyödyntää tätä tietoa ja päästä lopulta mahdollisesti huomattaviinkin energiansäästöihin.
Big Dataan lasketaan kuuluvaksi myös ei-strukturoitu tieto. Tästä on hyvä esimerkki sosiaalinen media.
Big Data alueelle liittyy suuri joukko uudenlaista teknologiaa, kuten NoSQL-tietokantoja ja uudenlaisia analysointivälineitä. Hadoop on yksi yleisimmistä uusista talletusratkaisuista, johon voidaan tallettaa hajautetusti ja suhteellisen edullisesti suuria määriä hajautettua kompleksia dataa – tällaiselle datalle Hadoop-ratkaisut ovat parempia kuin perinteiset relaatiokannat. Relaatiokannat eivät toki ole väistymässä, päinvastoin, niidenkin käyttö lisääntyy koko ajan. On muistettava, että relaatiokannat ovat monipuolisia, kypsyneitä tuotteita ja sopivat useimpiin käyttötarkoituksiin hyvin.
Big Data -alueen tietoja voidaan – ainakin alkukokeiluissa – pitää erillisenä saarekkeena, mutta lopulta näitä tietoja halutaan kuitenkin luontevasti yhdistellä ”perinteiseen” tietoon. Tällöin tarvitaan menetelmiä kytkeä Big Data Tietoarkkitehtuuriin, tietojen mallinnukseen sekä toimiviin tietovarastoarkkitehtuureihin.
Data Science koostuu joukosta tilastollisia, matemaattisia ja analyyttisiä menetelmiä, joilla voidaan tulkita monimutkaista dataa, hakea merkityksiä sekä luoda tiedosta tuotteita (data products). On ennustettu, että Data Science -osaajista tulee kova pula lähivuosina.
Miten hallita Big Dataa? Tarjoamme koulutusta, mm. Big Data -tietoisku ja ensimmäisenä Suomessa Hadoop -workshoppeja. Kannattaa olla eturintamassa ja osallistua kursseille!
