Hadoop 作為開源的云計算平臺,為大數據處理提供了一整套解決方案,應用非常廣泛。Hadoop 作為一個
平臺框架,包括了如何存儲海量數據,如何處理海量數據,以及相應的數據庫、數據倉庫、數據流處理、數
據分析和挖掘算法庫等等。本次培訓作為知識儲備,主要講解目前應用數據和大數據平臺的數據同步工作以
及了解大數據理論體系結構, 應用 Hadoop 2.0 的大數據框架結構,文本文件與 Hadoop/Hive/Sqoop 數據
遷,Hadoop 的思想、原理,以及重要技術等相關知識。
第一天
一、Hadoop 的基本框架 :
大數據時代面臨的問題 ;當前解決大數據的技術方案 ;Hadoop 架構和云計算 ;Hadoop 簡史及安裝部署 ;Hadoop 設計理念和生態系統
二、HDFS 分布式文件系統:海量數據存儲的搖籃
HDFS 的設計目標 、HDFS 的基本架構 、 NameNode 名稱節點 、 SecondaryNameNode 第二名稱節點 、 DataNode 數據節點 、HDFS 的存儲模型
數據塊存儲 、 元數據存儲(空間鏡像與編輯日志) 、多副本存儲
多副本放置策略
多數據節點管理機制與交互過程
文件系統操作與管理
讀文件過程
寫文件過程(數據流管道)
數據完整性機制
數據校驗和
數據完整性掃描線程
元數據備份與合并
數據可靠性設計
安全模式(數據塊與節點映射關系管理)
心跳檢測機制(節點失效管理)
租約機制(多線程并發控制)
其它
HDFS 的安全機制
負載均衡
文件壓縮
操作接口與編程接口
HDFS Shell
HDFS Commands
演練:HDFS 文件操作命令
三、MapReduce 分布式計算系統:海量數據處理的利器
MapReduce 的三層設計理念 、分布治之的設計思想(Map 與 Reduce) 、數據處理引擎(編程模型) 、 運行時環境(任務調度與執行) 、MapReduce 的基本架構 、JobTracker 作業跟蹤器 、TaskTracker 任務跟蹤器
MapReduce 與 HDFS 的部署關系
四、Yarn:平臺
Yarn 平臺的搭建 、 Yarn 實例的運行 、Yarn 應用的監控