<thead id="fflbj"><font id="fflbj"><cite id="fflbj"></cite></font></thead>
    <progress id="fflbj"><thead id="fflbj"><font id="fflbj"></font></thead></progress>

            課程目錄:Python爬蟲及文本分析學術應用培訓
            4401 人關注
            (78637/99817)
            課程大綱:

                      Python爬蟲及文本分析學術應用培訓

             

             

             

             

            Python爬蟲及文本分析學術應用
            爬蟲與文本分析概述
            結構化數據/文本數據的獲取方法概述

            高效的編程語言實現結構化數據處理與文本分析的價值,文本分析簡介

            python編程基礎
            標準數據類型

            控制流

            自定義函數

            os文件處理模塊

            python重要數據科學計算庫
            Numpy

            Pandas

            Matplotlib

            Pyecherts

            wordcloud

            爬蟲基礎
            網絡爬蟲簡介

            爬蟲的基本原理

            HTML 簡介

            數據存儲

            網頁抓取
            使用Urllib網頁抓取

            requests實戰

            BeautifulSoup4
            BeautifulSoup 簡介

            BeautifulSoup 的安裝

            BS 對象的種類

            遍歷文檔樹

            搜索文檔樹

            Xpath
            什么是Xpath

            Xpath開發工具

            Xpath常用規則

            動態渲染頁面抓取
            Selenium 的安裝

            基本使用

            聲明瀏覽器對象

            訪問頁面

            定位元素

            節點交互

            動作鏈

            執行 JavaScript

            獲取節點信息

            延時等待

            前進后退

            Cookies

            選項卡管理

            異常處理

            爬蟲實戰
            網站的爬取

            電商評價文本爬取

            可供讀取數據類型介紹
            excel、pdf、txt、html、mysql數據庫文件介紹

            數據的存儲
            將數據存儲到excel表

            將數據存儲到txt文本

            將數據存儲到csv

            數據的讀取
            python批量讀取多個多子表excel

            python讀取txt文件

            python讀取csv

            正則表達式
            什么是正則表達式

            正則表達式匹配規則

            re模塊的使用

            文本處理常用字符串方法精講
            字符串的不變性

            排序行

            段落格式化

            二進制轉化為ASCII

            重復字詞過濾

            提取郵件地址

            提取URL地址

            大寫轉換

            符號化

            刪除停用詞

            同義詞與反義詞處理

            文本翻譯

            單詞替換

            拼寫檢查

            WordNet接口

            語料訪問

            標記單詞

            塊和裂口

            塊分類

            文本分類

            雙字母組

            文字改寫

            文字換行

            頻率分布

            文字摘要

            詞干算法

            約束搜索

            numpy數值計算要點串講

            Pandas數據處理串講

            python統計圖表展示

            重要的庫
            jieba庫簡介

            關鍵詞提取
            關鍵詞任務概述

            TF-IDF算法原理

            相似文章推薦原理介紹

            實例:紅樓夢文本分析的實現

            文件與詞庫的讀取

            完成分詞與詞云圖的繪制

            文本分類
            新聞素材介紹

            新聞內容的關鍵詞提取

            詞向量轉化與ngram模型

            樸素貝葉斯算法完成新聞分類

            文本聚類
            語料的加載,文本特征的提取,利用聚類算法對文本進行聚類

            主題模型,情感分析

            538在线视频二三区视视频