Data Lake ja modernin tietoalustan perusteet

Kurssin toteutukset:

  • 10.04.2018 - 11.04.2018 Nortrain, Opastinsilta 12 F, Pasila, Helsinki 1 600 € + alv

Kurssi on saatavana myös yrityskohtaisena. Lisätiedustelut johannes.hovi@arihovi.com tai 050 3670809.

Data Platform on jokaisen data driven -organisaation perusedellytys. Siihen liittyy keskeisesti ei-strukturoidun datan kerääminen ja hyödyntäminen. Big Data on ehkä terminä kokenut inflaation, mutta isojen datamassojen hyödyntäminen on ajankohtaisempaa kun koskaan.

Data Laken on Hadoop-pohjainen ratkaisu ei-strukturoidun tiedon talletukseen ja analysointiin. Se on tällä hetkellä suositeltava arkkitehtuuriratkaisu aina, kun suunnittelemme Data Platformia, eli laajennettua tietovarastoa. Aivan jokainen vähänkään isompi yritys tulee käsittelemään suurempaa ulkoista datamassaa tulevaisuudessa, joten aihe on erittäin ajankohtainen. Katso tästä videosta lisätietoa Data Platformista ja sen toteutuksesta.

Tule oppimaan Data Laken toteutus käytännössä!

Kurssin tarkoituksena on syventää osallistujien ymmärrystä Hadoopista (järjestämme myös Hadoop-peruskurssin, jossa opit perustee käytännössä= sekä sen hyödyntämisestä tietovarastoinnissa käytännön työasemaharjoituksiin perustuvan oppimisen kautta. Vaikka painopiste on todenmukaisissa, käytännön harjoitustehtävissä, kahden päivän mittainen masterkurssi sisältää myös teoriaa ja taustoitusta Hadoopista.

Ensimmäisenä päivänä perehdytään Hadoopiin. Jokainen osallistuja perustaa itselleen pilvipalvelupohjaisen Hadoop-klusterin. Klusteriin tutustutaan tarkemmin päivän aikana tutkimalla sen eri käyttöliittymiä, rajapintoja ja ominaisuuksia, konfiguroimalla suorituskykyyn, saatavuuteen ja tietoturvaan liittyviä ominaisuuksia sekä testaamalla käytännössä tehtyjen konfigurointimuutosten vaikutuksia.

Toisena päivänä toteutetaan todenmukainen, pilvipohjainen Data Lake harjoitustehtävien kautta. Data Lake –konseptin lisäksi päivän aikana opitaan Hadoop-ekosysteemin yleisimmin käytetyt tuotteet kuten esimerkiksi Hive, Pig ja Sqoop sekä Hadoop-pohjaisen tietovarastoinnin edistyksellisiä menetelmiä, mm. Hadoopin käyttö suorituskykyisenä ETL-työkaluna ja raakadatan prosessorina, Hive-taulujen partitiointitekniikat, taulujen välisten liitosten suorituskyvyn optimointi sekä pilvitietovaraston hyödyntäminen tietovarastoinnissa.

Lue lisää Hadoopista tietovarastoinnissa ja Data Lake –konseptista kouluttajan, Karri Pulkkisen blogista http://www.arihovi.com/hadoopin-rooli-tietovarastoinnissa/.

Kenelle:

Tietovarastosuunnittelijoille ja -toteuttajille, DW/BI-asiantuntijoille, Big Data -asiantuntijoille, DBA:ille, arkkitehdeille.

Esitiedot:

Hadoop-peruskurssin suorittaminen tai Hadoop-perustuntemus on eduksi, mutta ei välttämätöntä.

Sisältö

  • Hadoop-klusterin arkkitehtuuri, infrastruktuurivaihtoehdot, distribuutiot
  • Pilvipalvelupohjaisen Hadoop-klusterin perustaminen
  • Klusterin konfigurointi ja valvonta
  • Klusterin suorituskyky ja tietoturva
  • Hadoop-pohjaisen tietovaraston arkkitehtuuri
  • Edistyneet tietovarastointimenetelmät ja parhaat käytännöt
  • Data Lake –konsepti
  • NoSQL-tietokannat

Kouluttaja:

Jaa: