課程內容:
14章分布式集群架構
14-01大數據行業前沿應用與知識介紹
14-02Linux入門基礎
14-03Hadoop入門介紹
14-04Hadoop單機環境搭建
14-05Hadoop偽分布式集群搭建
14-06Hadoop完全分布式集群搭建
15章分布式文件存儲系統HDFS
15-01HDFS簡介
15-02HDFS編程入門
15-03HDFS讀寫文件
15-04HDFS架構原理及常用指令
16章ETL工具Sqoop基本原理和常用指令
16-01Sqoop介紹
16-02Sqoop原理
16-03Sqoop部署
16-04關系型數據庫導入Hadoop
16-05Hadoop導入關系型數據庫
16-06Sqoop job應用
17章大數據倉庫知識應用
17-01Hive架構原理和技術方向
17-02HiveQL數據查詢、函數(聚合函數、窗口函數、UDF)
17-03Hbase表設計及數據查詢
17-04商業應用案例—寬表設計與用戶畫像
17-05商業應用案例—網站流量分析與頁面運營
18章Spark架構原理和核心組件
18-01Spark介紹
18-02Spark數據結構及編程語言接口
18-03Spark與分布式數據庫和分布式數據倉庫的集成方法
19章PySpark編程指南與Spark RDD相關操作
19-01PySpark開發環境搭建
19-02PySpark編程入門:Spark基本數據結構
19-03PySpark編程入門:PySpark常用語句
19-04采用PySpark讀取分布式數據庫中數據
19-05PySpark數據清洗案例
20章Spark MLLib與機器學習算法實踐