Hadoop+Spark平台安裝與開發

Posted on August 28, 2013 at 10:00 PM



適合對象                     

規劃導入Hadoop/Spark Ecosystem者、Hadoop/Spark 平 台建置者、Hadoop/Spark平台應⽤程式開發者 

課程目標

本課程為Apache Hadoop+Spark大數據平台課程,在本課程將帶您一窺Hadoop/Spark生態系統的組成、以及如何在大數據平台開發資料分析應用。透過實機操作帶領您了解Hadoop/Spark平台的建置、HDFS的相關操作、以及使用Spark在Hadoop之上撰寫程式。
 

課程設計

課程結束後,您將能夠獲得以下觀念或技能:
1.    了解Hadoop生態系統之成員及其功能
2.     Hadoop cluster之安裝與設定方式
3.     Hadoop 分散式檔案系統(HDFS)的操作
4.     Hadoop MapReduce程式撰寫
5.     Apache Hive的安裝及設定
6.     用Hive撰寫MapReduce程式
7.     了解Spark平台之組成及其功能
8.     Spark平台安裝及驗證
9.     了解Spark核心資料集 - RDD的概念及操作
10.  Spark核心語言 - Scala程式開發基礎
11.  Spark SQL及DataFrame的使用及程式開發
12.  Spark 機器學習函式庫(MLlib)使用及程式開發
 
課程對象

•  具備基礎的Linux指令操作經驗
•  具備基本的SQL知識
•  具備基本程式概念(有Java、.NET或Python等程式開發經驗者尤佳)

課程內容

本課程含大量實機操作訓練,旨在使學員由實作上逐步認識Hadoop/Spark平台之核心功能、開發人員亦可藉此建立未來程式開發及執行之環境。本課程亦帶入程式開發之實作項目(MapReduce、Hive、Spark SQL、Spark MLlib)。

Module 1:課程簡介

   1     簡介與課程議程

   2     課程目標

   3     參考資料與資源

Module 2:Hadoop Ecosystem介紹

   1     Big Data資料分析概念

   2     Hadoop 平台介紹

   3     Hadoop Ecosystem 成員介紹

Module 3:Hadoop 平台安裝

   1     VMWare Workstation Player安裝

   2     Ubuntu 系統安裝及設定

   3     Hadoop 單一節點安裝及設定

   4     Hadoop/YARN 多節點安裝及設定

   5     Hadoop安裝驗證

Module 4:Hadoop 分散式檔案系統(HDFS)

   1     HDFS 運作介紹 

   2     HDFS 操作指令演練

   3     HDFS 的高可用性及權限控管

Module 5:Hadoop MapReduce

   1     MapReduce 介紹

   2     MapReduce 的架構及運作原理

   3     MapReduce 實作開發環境設定

   4     MapReduce 案例實作

   5     在 Hadoop 平台執行 MapReduce

Module 6:Apache Hive

   1     Apache Hive 介紹

   2     Hive 安裝與設定

   3     Hive 語法教學 

   4     撰寫 Hive 使用者自訂函數

   5     使用 Hive 進行資料分析

Module 7:Sqoop與Flume

   1     Sqoop 介紹

   2     Sqoop 安裝及設定

   3     Sqoop 指令演練

   4     使用 Sqoop 轉移結構化資料

   5     Flume 介紹

   6     Flume 安裝及設定

   7     使用 Flume 轉移非結構化資料   

Module 8:Apache Spark

   1     Apache Spark 生態系統介紹

   2     Spark SQL 簡介

   3     Spark Streaming 簡介

   4     Spark Machine Learning 簡介

   5     Spark GraphX 簡介

Module 9:Spark 平台安裝

   1     Spark Standalone 佈署

   2     Spark on Hadoop/Yarn 佈署

   3     Spark 安裝驗證

   4     Spark-shell 使用介紹

Module 10:RDD - Resilient distributed dataset

   1     RDD 結構及運作原理介紹

   2     RDD 操作指令介紹及演練

   3     透過 RDD API 撰寫 MapReduce 程式

Module 11:Scala 程式開發基礎

   1     Scala 程式語言介紹

   2     Scala IDE 安裝及設定

   3     Spark 本機開發環境安裝

   4     Scala 開發常用語法介紹及演練


建 議 開 課

有任何問題歡迎來信或致電,我們將請專人回覆您!