當前位置：首頁北京站北京CDA數據分析師北京程序設計培訓

北京程序設計培訓

暫無報價

開班日期：滾動開班

開課機構：北京CDA數據分析師點擊咨詢

聯系方式： 400-029-0821轉18827 免費通話

預約試聽索取底價

課程介紹

課程亮點：

本課程致力于講授完整的結構化數據、文本數據的獲取、存儲、讀取、處理和分析過程，我們期望課程可以幫助到廣大的用戶，包括所有想要使用python編程語言實現數據獲取和文本分析的在校師生、以及致力于將數據分析與挖掘的價值廣泛運用到實際場景的商業人士。

學習目標：

不再單一依靠開源公開數據網站的數據，適當擺脫對國家統計年鑒、wind數據庫、知網數據的依賴，能夠從更多元的渠道獲取數據，使用python更高效的處理數據，并用更前沿的技術分析和挖掘數據信息，為我們的科研工作減輕中間工作負擔。

課程內容：

01章概述爬蟲與文本分析概述

01-01結構化數據/文本數據的獲取方法概述

01-02高效的編程語言實現結構化數據處理與文本分析的價值

02章編程基礎

02-01python編程基礎（標準數據類型，控制流，自定義函數，類，os文件處理模塊）

02-02python重要數據科學計算庫（Numpy，Pandas，Matplotlib，Pyecherts，wordcloud）

03章數據獲取

03-01爬蟲基礎（網絡爬蟲簡介，爬蟲的基本原理，HTML 簡介，數據存儲）

03-02網頁抓取（使用 Urllib網頁抓取，requests實戰）

03-03BeautifulSoup4（簡介，安裝，BS 對象的種類，遍歷文檔樹，搜索文檔樹）

03-04Xpath（什么是Xpath，Xpath開發工具，Xpath常用規則）

03-05動態渲染頁面抓取（Selenium的安裝，基本使用，聲明瀏覽器對象，訪問頁面，定位元素，節點交互，動作鏈，執行 JavaScript，獲取節點信息，延時等待，前進后退，Cookies，選項卡管理，異常處理）

03-06爬蟲實戰（網站的爬取，基電商評價文本爬取）

04章數據存儲與讀取

04-01可供讀取數據類型介紹（excel、pdf、txt、html、mysql數據庫文件介紹）

04-02數據的存儲（將數據存儲到excel表，txt文本，word文檔）

04-03數據的讀取（python批量讀取多個多子表excel，python讀取txt文件，word文檔）

05章數據處理

05-01正則表達式（什么是正則表達式，正則表達式匹配規則，re模塊的使用）

05-02文本處理常用方法（字符串的不變性，排序行，段落格式化，二進制轉化為ASCII，重復字詞過濾，提取郵件地址，提取URL地址，大寫轉換，符號化，刪除停用詞，同義詞與反義詞處理，文本翻譯，單詞替換，拼寫檢查，WordNet接口，語料訪問，標記單詞，塊和裂口，塊分類，文本分類，雙字母組，文字改寫，文字換行，頻率分布，文字摘要，詞干算法，約束搜索）

05-03結構化數據處理--數據清洗（numpy數值計算要點串講，Pandas數據處理串講，python統計圖表展示）

06章文本分析實戰

06-01重要的庫（jieba庫簡介）

06-02關鍵詞提取（關鍵詞任務概述，TF-IDF算法原理，相似文章推薦原理介紹，實例：紅樓夢文本分析的實現，文件與詞庫的讀取，完成分詞與詞云圖的繪制）

06-03文本分類（新聞素材介紹，新聞內容的關鍵詞提取，詞向量轉化與ngram模型，樸素貝葉斯算法完成新聞分類）

校區導航

上地十街

北京市海淀區上地十街
高粱橋斜街59號

北京市海淀區高粱橋斜街59號
廠洼街校區

廠洼路丹龍大廈

熱推課程

北京就業培訓python
暫無價格詢底價
北京企業培訓大數據分析
暫無價格詢底價
北京分析大數據培訓
暫無價格詢底價
CDA歐洲學校EMBA&數據分析碩士
暫無價格詢底價

北京CDA數據分析師

北京程序設計培訓

校區導航

熱推課程

站內導航

學員中心