Posted on August 28, 2013 at 10:00 PM
規劃導入Hadoop/Spark Ecosystem者、Hadoop/Spark 平 台建置者、Hadoop/Spark平台應⽤程式開發者
本課程為Apache Hadoop+Spark大數據平台課程,在本課程將帶您一窺Hadoop/Spark生態系統的組成、以及如何在大數據平台開發資料分析應用。透過實機操作帶領您了解Hadoop/Spark平台的建置、HDFS的相關操作、以及使用Spark在Hadoop之上撰寫程式。
課程結束後,您將能夠獲得以下觀念或技能:
1. 了解Hadoop生態系統之成員及其功能
2. Hadoop cluster之安裝與設定方式
3. Hadoop 分散式檔案系統(HDFS)的操作
4. Hadoop MapReduce程式撰寫
5. Apache Hive的安裝及設定
6. 用Hive撰寫MapReduce程式
7. 了解Spark平台之組成及其功能
8. Spark平台安裝及驗證
9. 了解Spark核心資料集 - RDD的概念及操作
10. Spark核心語言 - Scala程式開發基礎
11. Spark SQL及DataFrame的使用及程式開發
12. Spark 機器學習函式庫(MLlib)使用及程式開發
課程對象
• 具備基礎的Linux指令操作經驗
• 具備基本的SQL知識
• 具備基本程式概念(有Java、.NET或Python等程式開發經驗者尤佳)
本課程含大量實機操作訓練,旨在使學員由實作上逐步認識Hadoop/Spark平台之核心功能、開發人員亦可藉此建立未來程式開發及執行之環境。本課程亦帶入程式開發之實作項目(MapReduce、Hive、Spark SQL、Spark MLlib)。
Module 1:課程簡介
1 簡介與課程議程
2 課程目標
3 參考資料與資源
Module 2:Hadoop Ecosystem介紹
1 Big Data資料分析概念
2 Hadoop 平台介紹
3 Hadoop Ecosystem 成員介紹
Module 3:Hadoop 平台安裝
1 VMWare Workstation Player安裝
2 Ubuntu 系統安裝及設定
3 Hadoop 單一節點安裝及設定
4 Hadoop/YARN 多節點安裝及設定
5 Hadoop安裝驗證
Module 4:Hadoop 分散式檔案系統(HDFS)
1 HDFS 運作介紹
2 HDFS 操作指令演練
3 HDFS 的高可用性及權限控管
Module 5:Hadoop MapReduce
1 MapReduce 介紹
2 MapReduce 的架構及運作原理
3 MapReduce 實作開發環境設定
4 MapReduce 案例實作
5 在 Hadoop 平台執行 MapReduce
Module 6:Apache Hive
1 Apache Hive 介紹
2 Hive 安裝與設定
3 Hive 語法教學
4 撰寫 Hive 使用者自訂函數
5 使用 Hive 進行資料分析
Module 7:Sqoop與Flume
1 Sqoop 介紹
2 Sqoop 安裝及設定
3 Sqoop 指令演練
4 使用 Sqoop 轉移結構化資料
5 Flume 介紹
6 Flume 安裝及設定
7 使用 Flume 轉移非結構化資料
Module 8:Apache Spark
1 Apache Spark 生態系統介紹
2 Spark SQL 簡介
3 Spark Streaming 簡介
4 Spark Machine Learning 簡介
5 Spark GraphX 簡介
Module 9:Spark 平台安裝
1 Spark Standalone 佈署
2 Spark on Hadoop/Yarn 佈署
3 Spark 安裝驗證
4 Spark-shell 使用介紹
Module 10:RDD - Resilient distributed dataset
1 RDD 結構及運作原理介紹
2 RDD 操作指令介紹及演練
3 透過 RDD API 撰寫 MapReduce 程式
Module 11:Scala 程式開發基礎
1 Scala 程式語言介紹
2 Scala IDE 安裝及設定
3 Spark 本機開發環境安裝
4 Scala 開發常用語法介紹及演練
有任何問題歡迎來信或致電,我們將請專人回覆您!