課程描述INTRODUCTION
Hadoop大數(shù)據(jù)解決方案培訓
日程安排SCHEDULE
課程大綱Syllabus
Hadoop大數(shù)據(jù)解決方案培訓
【課程目標】
Hadoop作為開源的云計算平臺,為大數(shù)據(jù)處理提供了一整套解決方案,應用非常廣泛。Hadoop作為一個平臺框架,包括了如何存儲海量數(shù)據(jù),如何處理海量數(shù)據(jù),以及相應的數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)流處理、數(shù)據(jù)分析和挖掘算法庫,等等。本課程主要介紹Hadoop的思想、原理,以及重要技術等相關知識。
通過本課程的學習,達到如下目的:
1、全面了解大數(shù)據(jù)處理技術的相關知識。
2、學習Hadoop的核心技術以及應用。
3、深入掌握Hadoop的相關工具在大數(shù)據(jù)中的使用。
4、掌握Hadoop的常用模塊的工作原理及開發(fā)應用技術。
5、掌握傳統(tǒng)數(shù)據(jù)中心向大數(shù)據(jù)中心轉換的關鍵技術。
6、掌握海量數(shù)據(jù)處理的性能優(yōu)化及維護技巧。
【授課對象】網(wǎng)絡部、大數(shù)據(jù)系統(tǒng)開發(fā)部、大數(shù)據(jù)中心、網(wǎng)絡運維部等相關技術人員。
【授課方式】原理精講+案例演練+開發(fā)實踐+系統(tǒng)優(yōu)化
【課程大綱】
第一部分:Hadoop的基本框架
1、大數(shù)據(jù)時代面臨的問題
2、當前解決大數(shù)據(jù)的技術方案
3、Hadoop架構和云計算
4、Hadoop簡史及安裝部署
5、Hadoop設計理念和生態(tài)系統(tǒng)
第二部分:HDFS分布式文件系統(tǒng):海量數(shù)據(jù)存儲的搖籃
1、HDFS的設計目標
2、HDFS的基本架構
1)NameNode名稱節(jié)點
2)SecondaryNameNode第二名稱節(jié)點
3)DataNode數(shù)據(jù)節(jié)點
3、HDFS的存儲模型
1)數(shù)據(jù)塊存儲
2)元數(shù)據(jù)存儲(空間鏡像與編輯日志)
3)多副本存儲
4、多副本放置策略
5、多數(shù)據(jù)節(jié)點管理機制與交互過程
6、文件系統(tǒng)操作與管理
1)讀文件過程
2)寫文件過程(數(shù)據(jù)流管道)
7、數(shù)據(jù)完整性機制
1)數(shù)據(jù)校驗和
2)數(shù)據(jù)完整性掃描線程
3)元數(shù)據(jù)備份與合并
8、數(shù)據(jù)可靠性設計
1)安全模式(數(shù)據(jù)塊與節(jié)點映射關系管理)
2)心跳檢測機制(節(jié)點失效管理)
3)租約機制(多線程并發(fā)控制)
9、其它
1)HDFS的安全機制
2)負載均衡
3)文件壓縮
10、操作接口與編程接口
1)HDFS Shell
2)HDFS Commands
3)WebHDFS REST API
4)HDFS Java API
① 演練:HDFS文件操作命令
② 演練:HDFS編程示例
第三部分:MapReduce分布式計算系統(tǒng):海量數(shù)據(jù)處理的利器
1、MapReduce的三層設計理念
1)分布治之的設計思想(Map與Reduce)
2)數(shù)據(jù)處理引擎(編程模型)
3)運行時環(huán)境(任務調度與執(zhí)行)
2、MapReduce的基本架構
1)JobTracker作業(yè)跟蹤器
2)TaskTracker任務跟蹤器
3)MapReduce與HDFS的部署關系
3、MapReduce編程模型概述
1)編程接口介紹
2)Hadoop工作流實現(xiàn)原理
4、MapReduce作業(yè)調度機制
1)MapReduce作業(yè)生命周期
2)作業(yè)調度策略
3)靜態(tài)資源管理方案
5、數(shù)據(jù)并行處理機制(五步驟)
1)Input階段實現(xiàn)
2)Map階段實現(xiàn)
3)Shuffle階段實現(xiàn)
4)Reduce階段實現(xiàn)
5)Output階段
6、MapReduce容錯機制
1)任務失敗與重新嘗試
2)節(jié)點失效與重調度
3)單點故障
7、MapReduce性能優(yōu)化
1)優(yōu)化方向與思路
2)磁盤IO性能優(yōu)化
3)分片優(yōu)化
4)線程數(shù)量優(yōu)化
5)內存優(yōu)化
6)壓縮優(yōu)化
8、MapReduce操作接口
1)Job Shell
2)Web UI
案例演練:MapReduce編程示例
9、YARN:下一代通用資源管理系統(tǒng)
1)MRv1的局限性
2)YARN基本框架
3)NN HA:解決單點故障
4)HDFS Federation:解決擴展性問題
第四部分:Hbase非關系型數(shù)據(jù)庫:海量數(shù)據(jù)的黎明
1、Hbase的使用場景
2、Hbase的基本架構
1)Zookeeper分布式協(xié)調服務器
2)Master主控服務器
3)Region Server區(qū)域服務器
3、Hbase的數(shù)據(jù)模型
1)Hbase的表結構
2)行鍵、列鍵、時間戳
4、Hbase的存儲模型
1)基本單位Region
2)存儲格式HFile
5、數(shù)據(jù)分裂機制Split
6、數(shù)據(jù)合并機制Compaction
1)minor compaction
2)major compaction
7、HLog寫前日志
8、數(shù)據(jù)庫讀寫操作
1)數(shù)據(jù)庫寫入
2)數(shù)據(jù)庫讀取
3)三次尋址
9、Hbase操作接口
1)Native Java API
2)Hbase Shell
3)批量加載工具
4)HiveQL操作
10、Hbase性能優(yōu)化
1)寫速度優(yōu)化
2)讀速度優(yōu)化
11、Hbase集群監(jiān)控與管理
案例演練:Hbase命令操作實例
第五部分:Hive分布式數(shù)據(jù)倉庫:高級的編程語言
1、Hive是什么
2、Hive與關系數(shù)據(jù)庫的區(qū)別
3、Hive系統(tǒng)架構
1)用戶接口層
2)元數(shù)據(jù)存儲層
3)驅動層
4、Hive常用服務
5、Hive元數(shù)據(jù)的三種部署模式
6、Hive的命名空間
7、Hive數(shù)據(jù)類型與存儲格式
1)數(shù)據(jù)類型
2)TextFile/SequenceFile/RCFile
8、Hive的數(shù)據(jù)模型
1)管理表
2)外部表
3)分區(qū)表
4)桶表
9、HQL語言命令實例
1)DDL數(shù)據(jù)定義語言
2)DML數(shù)據(jù)操作語言
3)QUERY數(shù)據(jù)查詢語言
10、Hive自定義函數(shù)
1)基本函數(shù)(UDF)
2)聚合函數(shù)(UDAF)
3)表生成函數(shù)(UDTF)
11、Hive性能優(yōu)化
1)動態(tài)分區(qū)
2)壓縮
3)索引
4)JVM重用
案例演練:Hive命令操作實例
第六部分:Sqoop數(shù)據(jù)交互工具:Hadoop與傳統(tǒng)數(shù)據(jù)庫的橋梁
1、Sqoop是什么
2、Sqoop的架構和功能
1)Sqoop1架構
2)Sqoop2架構
3、數(shù)據(jù)雙向交換
1)數(shù)據(jù)導入過程
2)數(shù)據(jù)導出過程
4、數(shù)據(jù)導入工具與命令介紹
案例演練:Sqoop數(shù)據(jù)導入/導出實際操作
第七部分:Pig數(shù)據(jù)流處理引擎:數(shù)據(jù)腳本語言
1、Pig介紹
2、命令行交互工具Grunt
3、Pig數(shù)據(jù)類型
4、Pig Latin腳本語言介紹
1)基礎知識
2)輸入和輸出
3)關系操作
4)調用靜態(tài)Java函數(shù)
5、Pig Latin高級應用
6、開發(fā)與測試Pig Latin腳本
1)開發(fā)工具
2)任務狀態(tài)監(jiān)控
3)調試技巧
7、腳本性能優(yōu)化
8、用戶自定義函數(shù)UDF
案例演練:Pig Latin腳本編寫、測試與運行操作
結束:課程總結與問題答疑。
Hadoop大數(shù)據(jù)解決方案培訓
轉載:http://szsxbj.com/gkk_detail/237137.html
已開課時間Have start time
- 傅一航
大數(shù)據(jù)課程內訓
- 管理者數(shù)據(jù)能力晉級 宋致旸
- 企業(yè)區(qū)塊鏈技術的應用場景與 李璐
- 數(shù)字經(jīng)濟基礎和企業(yè)數(shù)字化轉 盧森煌
- 大數(shù)據(jù)時代下服務營銷新思維 秦超
- 《企業(yè)數(shù)據(jù)管理與數(shù)據(jù)資產(chǎn)化 張光利
- 《小紅書運營策劃與執(zhí)行》 黃光偉
- 數(shù)字金融與智能金融下的智慧 盧森煌
- 數(shù)字媒體和數(shù)字教學 鐘理勇
- 《零售行業(yè)社群團購運營》 陳蕊
- 商業(yè)銀行數(shù)據(jù)治理體系建設實 馬慶
- 數(shù)字化轉型與新質生產(chǎn)力 盧森煌
- 大數(shù)據(jù)行業(yè)的現(xiàn)狀與熱點 徐全