ClouderaApacheHadoop培訓及認證幫助您進階大數據知識及技能。
Cloudera大學為期4天的Hadoop管理員培訓將幫助學員綜合理解并全面掌握通過ClouderaManager對Hadoop集群的運維管理,包括:安裝,配置、負載平衡及性能調優等。通過該培訓,Hadoop系統管理員將能準備好應對實際運維中遇到的挑戰。
一.培訓內容
● 通過講師在課堂上的講解,以及實操練習,學員將學習以下內容:
● ClouderaManager管理集群的特性,諸如日志匯總、配置管理、資源管理、報告、報警及服務管理等。
● YARN、MapReduce、Spark及HDFS的工作原理。
● 如何為你的集群選取合適的硬件和架構。
● 如何將Hadoop集群和企業已有的系統進行無縫集成。
● 如何使用Flume進行實時數據采集以及如何使用Sqoop在RDBMS和Hadoop集群之間進行數據導入導出。
● 如何配置公平調度器為Hadoop上的多用戶提供服務級別保障。
● 產品環境中Hadoop集群的運維實踐。
● Hadoop集群排錯、診斷問題和性能調優。
二.培訓對象及學員基礎
面向系統管理員和IT經理,需具備Linux經驗,無需ApacheHadoop基礎。
三.認證
結束本課程培訓后,我們建議學員準備并注冊參加CCAHadoop管理員考試。通過并獲取該證書是向公司及客戶證明個人在Hadoop領域的技術和專長的有力依據。
四.課程大綱
1. ApacheHadoop介紹
● Hadoop的創建動機
● 基本概念
● Hadoop核心部件
2. Hadoop集群安裝
● 集群管理方案
● ClouderaManager特性
● Clouderamanager安裝
● Hadoop(CDH)安裝
3. Hadoop分布式文件系統(HDFS)
● HDFS特性
● 讀寫文件
● NameNode內存考慮
● HDFS安全簡介
● HDFSWebUI
● 使用HDFSShell
4. YARN上的MapReduce和Spark
● 計算平臺在Hadoop里扮演的角色
● YARN:集群資源管理器
● MapReduce概念
● ApacheSpark概念
● Yarn上的計算平臺
● 通過WebUI及Shell觀察YARN應用
● YARN應用運行日志
5. Hadoop配置及服務運行日志
● ClouderaManager配置管理機制
● 定位配置參數及進行配置變更
● 管理角色實例及添加服務
● 配置HDFS服務
● 配置Hadoop服務運行日志
● 配置YARN服務
6. HDFS數據導入
● 使用Flume從外部數據源實時
● 導入數據
● 使用Sqoop從關系數據庫導入數據
● REST接口
● 導入數據的實踐
7. Hadoop集群規劃
● 規劃考慮因素
● 硬件選擇
● 虛擬化選項*
● 網絡因素
● 節點配置
8. Hive,Impala及Pig安裝及配置
● Hive
● Impala
● Pig
9. Hadoop客戶端及Hue
● 什么是Hadoop客戶端
● 安裝及配置Hadoop客戶端
● 安裝及配置Hue
● 使用Hue進行身份驗證及授權
10. 集群高級配置
● 高級配置參數
● Hadoop端口配置
● HDFS機柜感知配置
● HDFS高可靠性配置
11. Hadoop安全
●Hadoop安全的重要性
● Hadoop安全性概念
● Kerberos簡介
● 使用Kerberos保護Hadoop集群
● 其他安全概念
12. 資源管理
● 使用靜態服務池配置Linuxcgroup
● 公平調度器
● 配置動態資源池
● YARN內存及CPU設置
● Impala查詢調度
13. 集群維護
● 檢查HDFS狀態
● 集群間復制數據
● 添加/移除集群節點
● 集群數據負載平衡
● 目錄快照
● 集群升級
14. 集群監控及排錯
● ClouderaManager監控特性
● 監控Hadoop集群
● Hadoop集群排錯
● 常見配置不當問題
15. 結論
Cloudera大數據課程體系