課程內容:
第1階段
預備知識:數據科學的數據庫基礎
了解數據庫在行業應用中的價值及其在數據分析中的地位,掌握數據庫中數據存儲、數據查詢、數據處理技術,了解與工業場景中Python 操作數據庫的邏輯和方法,并攻克BAT數據庫重點筆試題。
第1章:數據的存儲、讀取及簡單處理
(一)導學直播:數據庫應用價值及其在數據分析中的地位
(二)操作數據庫--數據的存儲
(三)查詢數據庫中的數據--查詢語句
(四)數據庫高級操作--函數
(五)工業場景下數據庫數據的提取與處理形式:Python連接數據庫
(六)專題直播:BAT數據庫面試題精講
(七)階段作業
第二階段
數據分析工具熟練運用養成計劃
了解Python在數據科學、人工智能領域的地位,3倍速高效掌握Python編程、Python數據處理與可視化核心技術,并理解可視化技術實現結果輸出與內容美化的數據表達邏輯。
第二章:3倍速學習Python核心編程技術
(一)導學直播:Python數據分析工具的市場競爭力分析
(二)Python編程的破冰之旅
(三)掌握Python序列對象:字符串、列表、元組、字典
(四)建立python控制流語句知識模型:條件判斷和循環的藝術
(五)實現Python的模塊化程序設計:函數
(六)面向對象編程與類
(八)專題直播:使用Git和Github進行版本控制
(九)階段作業
第三章:數據分析入門:使用Numpy+Matplotlib分析數據
(一)導學直播:巧用Python強大的第三方庫功能,大幅度提升編程任務效率
(二)共享單車每季度平均騎行時間對比
(三)動手創建一個批量溫度轉換器
(四)共享單車各類用戶的平均騎行時間趨勢對比
(五)氣溫數據的描述性統計分析:大值、小值、平均值
(六)共享單車的用戶類別分析:比例
(七)氣溫數據的可視化分析
(八)共享單車用類別分析的統計圖形繪制
(九)功能強大的Numpy的高級操作
(十)階段作業
第四章:Pandas從數據分析到可視化
(一)導學直播:數據表達邏輯--結果輸出與內容美化
(二)比較咖啡店各類飲品的數量與熱量
(三)PM*.5的數值展示及不同來源數值差異對比展示
(四)分析電子游戲在各國的營收情況并用堆疊圖展示
(五)房屋價格影響因素探索與房價趨勢的可視化展示
(六)神奇寶貝數據的變量關系探索與分析
(七)不同手機操作系統的流量使用情況分析
(八)統計不同專業的員工平均薪資
(九)股票行情分析及價格趨勢的可視化展示
(十)幸福指數的等級分析
(十一)專題直播:python實現excel辦公自動化
(十二)階段作業
第三階段
數據價值的挖掘及預測技術實戰
掌握機器學習、深度學習的數學基礎、機器學習理論及實現、深度學習理論及實現;掌握機器學習、深度學習在推薦系統、金融、量化等領域的工業應用實踐及模型部署上線
第五章:數據價值挖掘及預測的數學基礎知識
(一)導學直播:數學基礎在機器學習中的重要性與必要性講解
(二)構建機器學習的線性代數知識模型
(三)掌握機器學習算法原理推導中的微積知識
(四)掌握機器學習算法必知必會的統計學知識
(五)專題直播:Python實現統計分析的方法--statsmodel的介紹及使用
(六)階段作業
第六章:掌握數據價值挖掘及預測的監督學習算法基礎
(一)導學直播:機器學習入門與算法總覽
(二)根據像素值對CIFAR10圖像數據進行KNN算法分類
(三)動手實現基于決策樹的收入分類與可視化
(四)使用線性回歸模型實現Ames房價預測
(五)使用邏輯回歸構建信用卡反欺詐預測模型
(六)使用樸素貝葉斯構建垃圾郵件分類器
(七)使用支持向量機對金融支付服務的欺詐行為進行預測
(八)通過boosting提升傳統算法在海外電商企業用戶細分項目中的效果
(九)使用XGBoost提升樹對人類發展指數官方數據集進行回歸預測
(十)監督學習綜合應用實戰:基于超參數優化的Gradient Boosting的銷售預測
(十一)專題直播:機器學習的人才需求及技術應用現狀分析
(十二)階段作業
第七章:掌握數據價值挖掘及預測的無監督學習算法基礎
(一)導學直播:實際工作中我們應該如何根據場景選擇適合的機器學習算法模型
(二)使用KMeans進行旅游企業客戶分群
(三)使用PCA進行基因序列異常檢測實現癌癥診斷
(四)基于潛在狄利克雷分配(LDA)的內容主題挖掘
(五)使用Apriori進行322萬知乎用戶的關注話題關聯分析
(十二)階段作業
第八章:使用深度學習完成你的第1個AI項目--人臉識別
(一)導學直播:深度學習的行業應用價值及技術發展趨勢
(二)單層感知器與多層感知器在反欺詐預測上的表現對比
(三)使用神經網絡進行手寫數字圖片識別
(四)快速上手構建一個人臉識別系統
(五)專題直播:深度學習主流框架介紹
(六)階段作業
第九章 工業項目實戰保障機器學習技術的落地實踐
(一)導學直播:工業場景下的機器學習模型應用與模型部署
(二)推薦系統案例精講
(三)金融風控案例精講
(四)時間序列案例精講
(五)算法模型的部署--在人工智能實驗室 中部署我們的反欺詐預測模型
(六)專題直播:機器學習工程師職業成長路徑
(七)階段作業
第四階段
分布式機器學習的工具基礎與工業項目實戰
看了解大數據工具運用的工業應用價值、大數據生態系統的重要組件、大數據架構搭建方法;掌握海量數據的存儲與處理技術;了解Spark大數據處理工具及相關組件;了解分布式機器學習的工業應用價值,掌握Spark MLlib分布式機器學習實現的邏輯及其在金融、計算廣告、推薦系統、量化投資等領域的應用。
第十章:海量數據存儲和處理技術:Linux環境下Sp****.x+Python開發環境的
(一)導學直播:海量數據處理的市場需求分析及工具介紹
(二)導入本地虛擬機至virtualbox及啟動系統和遠程桌面連接
(二)大數據環境快速搭建:Hadoop偽分布式集群的搭建
(三)大數據環境快速搭建:Linux系統下安裝PySpark模塊并遠程啟動Anaconda
(四)使用結構化海量數據處理框架Spark SQL、Spark DataFrame進行航空數據分析
(五)專題直播:Spark DataFrame與Python DataFrame異同
(六)階段作業
第十一章:千萬級別數據的機器學習問題:機器學習的分布式計算實現
(一)分布式機器學習的工業價值及技術發展趨勢介紹
(二)PySpark機器學習:Spark Mllib實現算法模型構建
(三)構建分類模型預測StumbleUpon給用戶個性化推薦的網頁是否長期受歡迎
(四)構建回歸模型實現共享單車需求量預測
(五)分布式環境下的Avazu廣告數據集性別標簽預測
(六)基于Avazu廣告數據的廣告排名及CTR預估
(七)分布式環境下的Audioscrobbler音樂推薦系統開發
(八)基于分布式機器學習的實現個人貸款違約預測
(九)基于分布式機器學習的銀行零售產品的交叉營銷
(十)基于分布式XGBoost的量化投資項目實戰--股票價格的預測
(十一)專題直播:運用Spark ML Pipeline組建簡易文本分類案例需求分析
(十二)階段作業
作業
第五階段
結業項目競賽
學員將組隊參加DC平臺、阿里天池競賽,提交項目代碼到平臺,根據項目得分及排名情況進行優秀學員評選
第十二章:項目競賽及競賽案例詳解
第六階段
就業階段
本階段將為學員提供專業的簡歷指導和就業推薦服務,為學員的就業保駕護航。學員入職后持續提供為期1年的入職護航服務,入職不滿意重新推薦