Big Data Hadoop and Spark Developer - eLearning
4.900,00 NOK
- 30 hours
Dette sertifiseringskurset for Big Data Hadoop er utformet for å gi deg dyp kunnskap om rammeverket for Big Data ved bruk av Hadoop og Spark. I dette praktiske kurset for Big Data vil du utføre virkelige, bransjebaserte prosjekter ved hjelp av Simplilearns integrerte laboratorier. Forutsetninger: Det anbefales at du har kunnskap om: - Kjerne - Java SQL
Kursplan
Introduksjon til Big Data og Hadoop
Leksjon 01
- Introduksjon til Big Data og Hadoop
- Introduksjon til Big Data
- Big Data-analyse
- Hva er Big Data?
- De fire V-ene i Big Data
- Case-studie: Royal Bank of Scotland
- Utfordringer med tradisjonelle systemer
- Distribuerte systemer
- Introduksjon til Hadoop
- Komponenter i Hadoop-økosystemet Del En
- Komponenter i Hadoop-økosystemet Del To
- Komponenter i Hadoop-økosystemet Del Tre
- Kommersielle Hadoop-distribusjoner
- Demo: Gjennomgang av Simplilearn Cloudlab
- Viktige poenger
- KunnskapssjekkHadoop-arkitektur distribuert lagring (HDFS) og YARN
Leksjon 02
- Hadoop-arkitektur Distribuert lagring (HDFS) og YARN
- Hva er HDFS
- Behovet for HDFS
- Vanlig filsystem vs HDFS
- Egenskaper ved HDFS
- HDFS-arkitektur og komponenter
- Implementering av høytilgjengelighetskluster
- HDFS-komponent filsystemnavnerom
- Datablokkdeling
- Datareplikeringstopologi
- HDFS kommandolinje
- Demo: Vanlige HDFS-kommandoer
- Praksisprosjekt: HDFS kommandolinje
- Yarn Introduksjon
- Yarn Brukstilfelle
- Yarn og dets arkitektur
- Ressursforvalter
- Hvordan ressursforvalteren opererer
- Applikasjonsmester
- Hvordan Yarn kjører en applikasjon
- Verktøy for Yarn-utviklere
- Demo: Gjennomgang av kluster del én
- Demo: Gjennomgang av kluster del to
- Viktige kunnskapspunkter kunnskapssjekk
- Praksisprosjekt: Hadoop-arkitektur, distribuert lagring (HDFS) og YarnDatainnsamling i Big Data systemer og ETL
Leksjon 03
- Datainntak i big data systemer og ETL
- Oversikt over datainntak del én
- Oversikt over datainntak del to
- Apache Sqoop
- Sqoop og dets bruksområder
- Sqoop-behandling
- Sqoop importprosess
- Sqoop-koblinger
- Demo: Import og eksport av data fra MySQL til HDFS
- Praksisprosjekt: Apache Sqoop
- Apache Flume
- Flume-modellen
- Skalerbarhet i Flume
- Komponenter i Flumes arkitektur
- Konfigurering av Flume-komponenter
- Demo: Inntak av Twitter-data
- Apache Kafka Aggregering av brukeraktivitet ved hjelp av Kafka
- Kafka datamodell
- Partisjoner
- Apache Kafka-arkitektur
- Demo: Oppsett av Kafka-kluster
- Eksempel på API for produsentsiden
- API for konsument-siden
- Eksempel på API for konsument-siden
- Kafka Connect
- Demo: Opprette eksempel på Kafka datapipeline ved bruk av produsent og konsument
- Viktige poenger
- Kunnskapssjekk
- Praksisprosjekt: Datainntak i big data systemer og ETLDistribuert prosessering MapReduce-rammeverk og Pig
Leksjon 04
- Distribuert prosessering i MapReduce-rammeverket og Pig
- Distribuert prosessering i MapReduce
- Ordtellings-eksempel
- Faser for kartutførelse
- Distribuert kartutførelse i to noder
- MapReduce-jobber
vSamhandling i Hadoop MapReduce-jobber
- Oppsett av miljø for MapReduce-utvikling
- Samling av klasser
- Opprettelse av et nytt prosjekt
- Avansert MapReduce
- Datatyper i Hadoop
- Utdataformater i MapReduce
- Bruk av distribuert hurtigbuffer
- Join-operasjoner i MapReduce
- Replicert join
- Introduksjon til Pig
- Komponenter i Pig
- Pig-datamodell
- Interaktive moduser i Pig
- Pig-operasjoner
- Diverse relasjoner utført av utviklere
Demo: Analyse av webloggdata ved bruk av MapReduce
- Demo: Analyse av salgsdata og løsning av KPI-er ved hjelp av Pig-praksisprosjekt: Apache Pig
- Demo: Ordtelling
- Viktige poeng
- Kunnskapstest
- Praksisprosjekt: Distribuert prosessering - MapReduce-rammeverk og Pig
Apache Hive
Leksjon 05
- Apache Hive
- Hive SQL over Hadoop MapReduce
- Hive-arkitektur
- Grensesnitt for å kjøre Hive-spørringer
- Kjører Beeline fra kommandolinjen
- Hive Metastore
- Hive DDL og DML
- Oppretting av ny tabell
- Validering av datatyper
- Filformattyper
- Dataserialisering
- Hive-tabell og Avro-skjema
- Optimalisering av Hive-partisjonering, bøtting og prøvetaking
- Ikke-partisjonert tabell
- Innsetting av data
- Dynamisk partisjonering i Hive
- Bøtting
- Hva gjør bøtter?
- Hive Analytics UDF og UDAF
- Andre funksjoner i Hive
- Demo: Analyse i sanntid og datatiltrukking
- Demo: Reelt problem
- Demo: Datarepresentasjon og import ved bruk av Hive
- Viktige poeng
- Kunnskapssjekk
- Praksisprosjekt: Apache Hive
NoSQL-databaser HBase
Leksjon 06
- NoSQL-databaser: HBase
- Innføring i NoSQL
- Demo: Yarn-optimalisering
- Oversikt over HBase
- HBase-arkitektur
- Datamodell
- Tilkobling til HBase
- Praksisprosjekt: HBase Shell
- Viktige poeng
- Kunnskapstest
- Praksisprosjekt: NoSQL-databaser - HBase
Grunnleggende om funksjonell programmering og Scala
Leksjon 07
- Grunnleggende om funksjonell programmering og Scala
- Introduksjon til Scala
- Demo: Installasjon av Scala
- Funksjonell programmering
- Programmering med Scala
- Demo: Grunnleggende literaler og aritmetisk programmering
- Demo: Logiske operatorer
- Typeinferens, klasser, objekter og funksjoner i Scala
- Demo: Typeinferens, anonyme funksjoner og klasse
- Samlinger
- Typer samlinger
- Demo: Fem typer samlinger
- Demo: Operasjoner på liste i Scala REPL
- Demo: Funksjoner i Scala REPL
- Viktige poenger
- Kunnskapssjekk
- Praksisprosjekt: Apache HiveApache Spark neste generasjons stordata-rammeverk
Leksjon 08
- Apache Spark neste generasjons rammeverk for big data
- Historien om Spark
- Begrensninger av Mapreduce i Hadoop
- Introduksjon til Apache Spark
- Komponenter i Spark
- Bruk av in-memory bearbeiding
- Hadoop-økosystemet vs Spark
- Fordeler med Spark
- Spark-arkitektur
- Spark-kluster i den virkelige verden
- Demo: Kjøring av Scala-programmer i Spark Shell
- Demo: Oppsett av kjøreomgivelse i IDE
- Demo: Spark Web UI
- Viktige poenger
- Kunnskapssjekk
- Praksisprosjekt: Apache Spark neste generasjons rammeverk for stordataSpark Core Prosesserings RDD
Leksjon 09
- Introduksjon til Spark RDD
- RDD i Spark
- Oppretting av Spark RDD
- Par-RDD
- RDD-operasjoner
- Demonstrasjon: Detaljert utforskning av Spark-transformasjoner med Scala-eksempler
- Demonstrasjon: Detaljert utforskning av Spark-handlinger med Scala
- Caching og vedvarende lagring
- Lagringsnivåer
- Lineage og DAG (rettet acyklisk graf)
- Behovet for DAG
- Feilsøking i Spark
- Partisjonering i Spark
- Planlegging i Spark
- Shuffling i Spark
- Sortering av data med Pair RDD
- Demonstrasjon: Spark-applikasjon med data skrevet tilbake til HDFS og Spark UI
- Demonstrasjon: Endring av Spark-applikasjonsparametere
- Demonstrasjon: Håndtering av ulike filformater
- Demonstrasjon: Spark RDD med virkelighetsnær anvendelse
- Demonstrasjon: Optimalisering av Spark-jobber
- Viktige poeng
- Kunnskapstest
- Øvingsprosjekt: Spark-kjernebehandling av RDD
Spark SQL Behandling av DataFrames
Leksjon 10
- Bearbeiding av DataFrames i Spark SQL
- Introduksjon til Spark SQL
- Arkitekturen til Spark SQL
- DataFrames
- Demonstrasjon: Håndtering av ulike dataformater
- Demonstrasjon: Implementering av ulike DataFrame-operasjoner
- Demonstrasjon: UDF og UDAF
- Samhandling med RDD-er
- Demonstrasjon: Bearbeiding av DataFrame ved bruk av SQL-spørring
- RDD kontra DataFrame kontra Dataset
- Praksisprosjekt: Bearbeiding av DataFrames
- Viktige poeng
- Kunnskapssjekk
- Praksisprosjekt: Spark SQL - Bearbeiding av DataFrames
Modellering av big data med Spark MLib
Leksjon 11
- Spark MLlib: Modellering av stordata med Spark
- Rollen til datavitenskapsmannen og datanalytikeren i stordata
- Analyse i Spark
- Maskinlæring
- Veiledet læring
- Demo: Klassifisering med lineær SVM
- Demo: Lineær regresjon med case-studier fra virkeligheten
- Uveiledet læring
- Demo: Uveiledet klynging med K-means
- Forsterkningslæring
- Semi-veiledet læring
- Oversikt over MLlib
- MLlib-pipelines
- Viktige poeng å ta med seg
- Kunnskapstest
- Praksisprosjekt: Spark MLlib - Modellering av stordata med Spark
Rammeverk for strømmebehandling og Spark Streaming
Leksjon 12
- Oversikt over strømming
- Sanntidsbehandling av store datamengder
- Arkitekturer for databehandling
- Demo: Sanntids databehandling med Spark Streaming
- Demo: Skrive Spark Streaming-applikasjon
- Introduksjon til DStreams
- Transformasjoner på DStreams
- Designmønstre for bruk av Foreachrdd
- Statlige operasjoner
- Vindusoperasjoner
- Sammenføyingsoperasjoner Strøm-datasett-sammenføyning
- Demo: Vindusbehandling av sanntids databehandling av strømmekilder
- Demo: Behandling av Twitter-strømmedata
- Strukturert Spark Streaming-
- Brukstilfelle Banktransaksjoner
- Arkitekturmodell for strukturert strømming og dens komponenter
- Utdata-senker
- API-er for strukturert strømming
- Konstruksjon av kolonner i strukturert strømming
- Vindusoperasjoner på hendelsestid
- Brukstilfeller
- Demo: Strømningsrørledning
- Praksisprosjekt: Spark Streaming
- Viktige poenger
- Kunnskapssjekk
- Praksisprosjekt: Strømningsbehandlingsrammeverk og Spark StreamingSpark GraphX
Leksjon 13
- Spark GraphX
- Introduksjon til Graf
- GraphX i Spark
- GraphX Operatorer
- Sammenføyingsoperatorer
- GraphX Parallelt System
- Algoritmer i Spark
- Pregel API
- Brukstilfelle av GraphX
- Demo: GraphX Vertekspredikat
- Demo: Page Rank Algoritme
- Viktige poeng
- Kunnskapssjekk
- Praksisprosjekt: Spark GraphX Prosjektassistanse
Læringsutbytte
I dette kurset for Big Data Hadoop og Spark-utviklere vil du lære å:
Hadoop-økosystemet
Forstå hvordan du navigerer i Hadoop-økosystemet og forstår hvordan du optimaliserer bruken av det
Innhent Data
Importere data ved hjelp av Sqoop, Flume og Kafka.
Kube
Implementere partisjonering, bøtting og indeksering i Hive
Apache Spark
Arbeide med RDD i Apache Spark
Datastrømming
Behandle datastrømmer i sanntid og utfør DataFrame-operasjoner i Spark ved bruk av SQL-spørringer
Implementering
Implementere brukerdefinerte funksjoner (UDF) og brukerdefinerte attributt funksjoner (UDAF) i Spark
Prosjektoppgaver ved kursavslutning
Prosjekt 1: Analyse av historiske forsikringskrav
Benytt Hadoop-funksjoner for å forutsi mønstre og dele handlingsinnsikt for et bilforsikringsselskap. Dette prosjektet bruker data fra New York Stock Exchange fra 2010 til 2016, innhentet fra over 500 noterte selskaper. Datasettet består av hver noterte selskaps intradagspriser og handelsvolum. Dataene brukes i både maskinlæringsprosjekter og eksplorerende analyseprosjekter med formål om å automatisere handelsprosessen og forutsi neste handelsdags vinnere eller tapere. Omfanget av dette prosjektet er begrenset til eksplorerende dataanalyse.
Prosjekt 2: Ansattevaluering av kommentaranalyse
HR-teamet surfer på sosiale medier for å samle tilbakemeldinger og meninger fra nåværende og tidligere ansatte. Denne informasjonen vil bli brukt til å utlede handlingsinnsikt og iverksette korrigerende tiltak for å forbedre forholdet mellom arbeidsgiver og ansatt. Dataene er web-skrapet fra Glassdoor og inneholder detaljerte vurderinger fra 67 000 ansatte fra Google, Amazon, Facebook, Apple, Microsoft og Netflix.
Prosjekt 3: K-means-klustering for telekommunikasjonsdomenet
LoudAcre Mobile er en mobiltelefontjenesteleverandør som har lansert en ny kampanje for åpent nettverk. Som en del av denne kampanjen har selskapet invitert brukere til å klage på mobilnettverkstårn i sitt område hvis de opplever tilkoblingsproblemer med sitt nåværende mobilnettverk. LoudAcre har samlet inn datasettet fra brukere som har klaget.
Prosjekt 4: Markedsanalyse i banksektoren
Vår klient, en portugisisk bankinstitusjon, gjennomførte en markedsføringskampanje for å overbevise potensielle kunder om å investere i en bankinnskuddspromosjon. Salgspitchene for markedsføringskampanjen ble levert via telefonsamtaler. Ofte ble imidlertid den samme kunden kontaktet mer enn én gang. Du må utføre markedsanalyse av dataene som ble generert av denne kampanjen, med tanke på de overflødige anropene.
Stor Hadoop og Spark-utvikler - eLearning
Målgruppe og forutsetninger
Målgruppe
- Analytikerprofesjonelle
- Erfarne IT-profesjonelle
- Testing- og hovedrammeprofesjonelle
- Dataforvaltningsprofesjonelle
- Forretningsanalytikere
- Prosjektledere
- Nyutdannede som ser etter å starte en karriere innen big data
Forutsetninger:
Det anbefales at du har kunnskap om:
- Kjerne
- Java SQL
Trenger du bedriftsløsning eller LMS-integrasjon?
Fant du ikke kurset eller programmet som ville være passende for din bedrift? Trenger du LMS-integrasjon? Ta kontakt med oss! Vi er agile og løser alt!