Python網路爬蟲：大數據擷取、清洗、儲存與分析－王者歸來

0人評分過此書

Python網路爬蟲：大數據擷取、清洗、儲存與分析－王者歸來

作者

：

洪錦魁 (著)

出版社

：

深智數位股份有限公司

出版日期

：

2021

閱讀格式

：

PDF

書籍分類

：

電腦

學科分類

：

科學類

ISBN

：

9789860776478

Python(電腦程式語言)

計次服務

借閱規則

借閱天數 7 天

選擇分享方式

推薦本館採購書籍

您可以將喜歡的電子書推薦給圖書館，圖書館會參考讀者意見進行採購

讀者資料

圖書館：和信治癌中心醫院

* 姓名：

* 身分：

系所：

* E-mail ：

※ 我們會寄送一份副本至您填寫的Email中

電話：

※ 電話格式為區碼+電話號碼(ex. 0229235151)/ 手機格式為 0900111111

* 請輸入驗證碼：

更新驗證碼

內容簡介
目錄

Python網路爬蟲
大數據擷取、清洗、儲存與分析
王者歸來(第二版)
★★★本書第一版是【博客來2020年】【電腦書年度暢銷榜第3名】★★★
★★★★★【26個主題】+【400個實例】★★★★★
★★★★★從【零】開始的【網路爬蟲入門書籍】★★★★★
★★★★★大數據【擷取】、【清洗】、【儲存與分析】★★★★★
★★★★★【網路趨勢】+【了解輿情】★★★★★

第二版和第一版做比較，增加下列內容：
★：全書增加約50個程式實例
★：網路趨勢，了解輿情
★：網路關鍵字查詢
★：YouBike資訊
★：國際金融資料查詢
★：博客來圖書排行榜
★：中央氣象局
★：租屋網站
★：生活應用

下列是本書有關網路爬蟲知識的主要內容：
★：認識搜尋引擎與網路爬蟲
★：認識約定成俗的協議robots.txt
★：從零開始解析HTML網頁
★：認識與使用Chrome開發人員環境解析網頁
★：認識Python內建urllib、urllib2模組，同時介紹好用的requests模組
★：說明lxml模組
★：Selenium模組
★：XPath方法解說
★：css定位網頁元素
★：Cookie觀念
★：自動填寫表單
★：使用IP代理服務與實作
★：偵測IP
★：更進一步解說更新的模組Requests-HTML
★：認識適用大型爬蟲框架的Scrapy模組

在書籍內容，筆者設計爬蟲程式探索下列相關網站：
☆：國際與國內股市資訊
☆：基金資訊
☆：股市數據
☆：人力銀行
☆：維基網站
☆：主流媒體網站
☆：政府開放數據網站
☆：YouBike服務網站
☆：PTT網站
☆：電影網站
☆：星座網站
☆：小說網站
☆：博客來網站
☆：中央氣象局
☆：露天拍賣網站
☆：httpbin網站
☆：python.org網站
☆：github.com網站
☆：ipstack.com網站API實作
☆：Google API實作
☆：Facebook API實作

探索網站成功後，筆者也說明下列如何下載或儲存不同資料格式的數據：
★：CSV檔案格式
★：JSON檔案格式
★：XML、Pickle
★：Excel
★：SQLite

在設計爬蟲階段我們可能會碰上一些技術問題，筆者也以實例解決下列相關問題：
☆：URL編碼與中文網址觀念
☆：將中文儲存在JSON格式檔案
☆：亂碼處理
☆：簡體中文在繁體中文Windows環境資料下載與儲存
☆：解析Ajax動態加載網頁，獲得更多頁次資料
☆：使用Chromium瀏覽器協助Ajax動態加載

第零章認識網路爬蟲
- 0-1 認識HTML
- 0-2 網路地址URL
- 0-3 爬蟲的類型
- 0-4 搜尋引擎與爬蟲原理
  - 0-4-1 搜尋引擎工作原理
  - 0-4-2 網路爬蟲工作原理
- 0-5 網路爬蟲的搜尋方法
- 0-6 網路爬蟲是否合法
- 0-7 認識HTTP 與HTTPS
- 0-8 表頭（headers）
第一章 JSON 資料與繪製世界地圖
- 1-1 JSON 資料格式前言
- 1-2 認識json 資料格式
  - 1-2-1 物件（object）
  - 1-2-2 陣列（array）
  - 1-2-3 json 資料存在方式
- 1-3 將Python 應用在json 字串形式資料
  - 1-3-1 使用dumps（）將Python 資料轉成json 格式
  - 1-3-2 dumps（）的sort_keys 參數
  - 1-3-3 dumps（）的indent 參數
  - 1-3-4 使用loads（）將json 格式資料轉成Python 的資料
  - 1-3-5 一個json 文件只能放一個json 物件？
- 1-4 將Python 應用在json 檔案
  - 1-4-1 使用dump（）將Python 資料轉成json 檔案
  - 1-4-2 將中文字典資料轉成json 檔案
  - 1-4-3 使用load（）讀取json 檔案
- 1-5 簡單的json 檔案應用
- 1-6 世界人口數據的json 檔案
  - 1-6-1 認識人口統計的json 檔案
  - 1-6-2 認識pygal.maps.world 的國碼資訊
- 1-7 繪製世界地圖
  - 1-7-1 基本觀念
  - 1-7-2 讓地圖呈現數據
  - 1-7-3 繪製世界人口地圖
- 1-8 XML
第二章使用Python 處理CSV 文件
- 2-1 建立一個CSV 文件
- 2-2 用記事本開啟CSV 檔案
- 2-3 csv 模組
- 2-4 讀取CSV 檔案
  - 2-4-1 使用open（）開啟CSV 檔案
  - 2-4-2 建立Reader 物件
  - 2-4-3 用迴圈列出Reader 物件資料
  - 2-4-4 用迴圈列出串列內容
  - 2-4-5 使用串列索引讀取CSV 內容
  - 2-4-6 DictReader（）
- 2-5 寫入CSV 檔案
  - 2-5-1 開啟欲寫入的檔案open（）與關閉檔案close（）
  - 2-5-2 建立writer 物件
  - 2-5-3 輸出串列writerow（）
  - 2-5-4 delimiter 關鍵字
  - 2-5-5 寫入字典資料DictWriter（）
- 2-6 寫入與讀取含中文的CSV 文件
- 2-7 專題——使用CSV 檔案繪製氣象圖表
  - 2-7-1 台北2017 年1 月氣象資料
  - 2-7-2 列出標題資料
  - 2-7-3 讀取最高溫與最低溫
  - 2-7-4 繪製最高溫
  - 2-7-5 設定繪圖區大小
  - 2-7-6 日期格式
  - 2-7-7 在圖表增加日期刻度
  - 2-7-8 日期位置的旋轉
  - 2-7-9 繪製最高溫與最低溫
  - 2-7-10 填滿最高溫與最低溫之間的區域
  - 2-7-11 後記
- 2-8 pickle 模組
- 2-9 Python 與Microsoft Excel
  - 2-9-1 將資料寫入Excel 的模組
  - 2-9-2 讀取Excel 的模組
第三章網路爬蟲基礎實作
- 3-1 上網不再需要瀏覽器了
  - 3-1-1 webbrowser 模組
  - 3-1-2 認識Google 地圖
  - 3-1-3 用地址查詢地圖的程式設計
  - 3-1-4 由經緯度獲得兩地之間的距離
- 3-2 下載網頁資訊使用requests 模組
  - 3-2-1 下載網頁使用requests.get（）方法
  - 3-2-2 認識Response 物件
  - 3-2-3 搜尋網頁特定內容
  - 3-2-4 下載網頁失敗的異常處理
  - 3-2-5 網頁伺服器阻擋造成讀取錯誤
  - 3-2-6 爬蟲程式偽裝成瀏覽器
  - 3-2-7 認識robots.txt
  - 3-2-8 儲存下載的網頁
- 3-3 檢視網頁原始檔
  - 3-3-1 建議閱讀書籍
  - 3-3-2 以Chrome 瀏覽器為實例
  - 3-3-3 檢視原始檔案的重點
- 3-4 分析網站使用Chrome 開發人員工具
  - 3-4-1 Elements 頁面標籤
  - 3-4-2 Network 頁面標籤
  - 3-4-3 細看Request table
  - 3-4-4 細看Headers
- 3-5 下載網頁資訊使用urllib 模組
- 3-5-1 urllib.request 模組
  - 3-5-2 認識幾個http.client.HTTPResponse 物件屬性
  - 3-5-3 將表頭應用在urllib.request 模組使用Request（）方法
  - 3-5-4 使用urllib.request 模組的urlretrieve（）方法下載圖片
  - 3-5-5 urllib.parse 模組
  - 3-5-6 異常處理urllib.error
  - 3-5-7 筆者個人體驗
- 3-6 認識httpbin 網站
  - 3-6-1 認識httpbin 網站
  - 3-6-2 get（）方法
  - 3-6-3 post（）方法
  - 3-6-4 認識表頭headers
  - 3-6-5 HTTP 的回應數據
- 3-7 認識Cookie
- 3-8 設置代理IP
第四章 Pandas 模組
- 4-1 Series
  - 4-1-1 使用串列list 建立Series 物件
  - 4-1-2 使用Python 字典dict 建立Series 物件
  - 4-1-3 使用Numpy 的ndarray 建立Series 物件
  - 4-1-4 建立含索引的Series 物件
  - 4-1-5 使用純量建立Series 物件
  - 4-1-6 列出Series 物件索引與值
  - 4-1-7 Series 的運算
- 4-2 DataFrame
  - 4-2-1 建立DataFrame 使用Series
  - 4-2-2 欄位columns 屬性
  - 4-2-3 Series 物件的name 屬性
  - 4-2-4 使用元素是字典的串列建立DataFrame
  - 4-2-5 使用字典建立DataFrame
  - 4-2-6 index 屬性
  - 4-2-7 將columns 欄位當作DataFrame 物件的index
- 4-3 基本Pandas 資料分析與處理
  - 4-3-1 索引參照屬性
  - 4-3-2 直接索引
  - 4-3-3 四則運算方法
  - 4-3-4 邏輯運算方法
  - 4-3-5 Numpy 的函數應用在Pandas
  - 4-3-6 NaN 相關的運算
  - 4-3-7 NaN 的處理
  - 4-3-8 幾個簡單的統計函數
  - 4-3-9 增加index
  - 4-3-10 刪除index
  - 4-3-11 排序
- 4-4 檔案的輸入與輸出
  - 4-4-1 寫入CSV 格式檔案
  - 4-4-2 讀取CSV 格式檔案
- 4-5 Pandas 繪圖
  - 4-5-1 使用Series 繪折線圖表
  - 4-5-2 使用DataFrame 繪圖表基本知識
  - 4-5-3 直條圖的設計
  - 4-5-4 一個圖表含不同數值資料
  - 4-5-5 多個數值軸的設計
  - 4-5-6 使用Series 物件設計圓餅圖
- 4-6 時間序列（Time Series）
  - 4-6-1 時間模組datetime
  - 4-6-2 使用Python 的datetime 模組建立含時間戳的Series 物件
  - 4-6-3 Pandas 的時間區間方法
  - 4-6-4 將時間序列繪製折線圖
- 4-7 專題——鳶尾花
  - 4-7-1 網路爬蟲
  - 4-7-2 將鳶尾花資料集轉成DataFrame
  - 4-7-3 散點圖的製作
  - 4-7-4 鳶尾花分類統計與直條圖
- 4-8 專題——匯入網頁表格資料
第五章 BeautifulSoup 解析網頁
- 5-1 解析網頁使用BeautifulSoup 模組
  - 5-1-1 建立BeautifulSoup 物件
  - 5-1-2 基本HTML 文件解析——從簡單開始
  - 5-1-3 網頁標題title 屬性
  - 5-1-4 去除標籤傳回文字text 屬性
  - 5-1-5 傳回所找尋第一個符合的標籤find（）
  - 5-1-6 傳回所找尋所有符合的標籤find_all（）
  - 5-1-7 認識HTML 元素內容屬性與getText（）
  - 5-1-8 HTML 屬性的搜尋
  - 5-1-9 使用find（）或find_all（）執行CSS 的搜尋
  - 5-1-10 select（）
  - 5-1-11 標籤字串的get（）
- 5-2 其它HTML 文件解析
  - 5-2-1 爬取項目清單文件
  - 5-2-2 爬取自定義清單文件
  - 5-2-3 爬取表格文件
  - 5-2-4 find_next_sibling（）和find_previous_sibling（）
  - 5-2-5 find_next_siblings（）和find_previous_siblings（）
  - 5-2-6 parent（）
  - 5-2-7 將parent（）與find_next_sibling（）／find_previous_sibling（）
  - 5-2-8 將parent（）與find_next_siblings（）／find_previous_siblings（）
- 5-3 網路爬蟲實戰——圖片下載
- 5-4 網路爬蟲實戰——找出台灣彩券公司最新一期威力彩開獎結果
- 5-5 網路爬蟲實戰——列出Yahoo 焦點新聞標題和超連結
- 5-6 IP 偵測網站FileFab
第六章網頁自動化
- 6-1 hashlib 模組
  - 6-1-1 使用md5（）方法計算中文／英文資料的哈希值
  - 6-1-2 計算檔案的哈希值
  - 6-1-3 使用sha1（）方法計算哈希值
  - 6-1-4 認識此平台可以使用的哈希演算法
  - 6-1-5 認識跨平台可以使用的哈希演算法
- 6-2 環保署空氣品質JSON 檔案實作
  - 6-2-1 下載與儲存JSON 檔案
  - 6-2-2 數據清洗
  - 6-2-3 讀取與寫入完整的環保署空氣品質資料
  - 6-2-4 記錄環保署空氣品質的aqi.json 的哈希值
- 6-3 檢測網站內容是否更新
- 6-4 工作排程與自動執行
- 6-5 環保署空氣品質的CSV 檔案
  - 6-5-1 下載與儲存CSV 檔案
  - 6-5-2 數據清洗
第七章 Selenium 網路爬蟲的王者
- 7-1 順利使用Selenium 工具前的安裝工作
  - 7-1-1 安裝Selenium
  - 7-1-2 安裝瀏覽器
  - 7-1-3 錯誤的實例
  - 7-1-4 驅動程式的安裝
  - 7-1-4-1 以Firefox 為實例
  - 7-1-4-2 以Chrome 為實例
- 7-2 獲得webdriver 的物件型態
  - 7-2-1 以Firefox 瀏覽器為實例
  - 7-2-2 以Chrome 瀏覽器為實例
- 7-3 擷取網頁
- 7-4 尋找HTML 文件的元素
- 7-5 XPath 語法
  - 7-5-1 認識HTML 的架構
  - 7-5-2 絕對路徑與相對路徑
  - 7-5-3 索引爬取重複的元素
  - 7-5-4 元素的屬性值
  - 7-5-5 列出屬性值
  - 7-5-6 contains（）
  - 7-5-7 隱藏參數與等待網頁載入
  - 7-5-8 進入Chrome 控制環境觀察XPath 運作
  - 7-5-9 Chrome 的外掛套件ChroPath
- 7-6 用Python 控制點選超連結
- 7-7 用Python 填寫表單和送出
  - 7-7-1 使用HTML 原始碼
  - 7-7-2 使用Chrome 瀏覽器
- 7-8 用Python 處理使用網頁的特殊按鍵
- 7-9 用Python 處理瀏覽器運作
- 7-10 自動化下載環保署空氣品質資料
第八章 PTT 爬蟲實戰
- 8-1 認識批踢踢實業坊
- 8-2 進入PTT 網址
- 8-3 解析PTT 進入須滿18 歲功能鈕
- 8-4 各篇文章的解析
- 8-5 解析文章標題與作者
- 8-6 推文數量
- 8-7 文章發表日期
- 8-8 將PTT 目前頁面內容以JSON 檔案儲存
- 8-9 前一頁面處理的說明
- 8-10 進入PPT 的Beauty 論壇網站
  - 8-10-1 了解目前頁面的文章數量
  - 8-10-2 列出目前頁面完整資料
  - 8-10-3 進入文章超連結
  - 8-10-4 推文或噓文
  - 8-10-5 圖片下載
- 8-11 ipstack
  - 8-11-1 註冊取得API Key
  - 8-11-2 使用API Key 查詢IP 位址
  - 8-11-3 使用Python 處理上述JSON 檔案
  - 8-11-4 取得PTT 貼文的來源
第九章 Yahoo 奇摩電影網站
- 9-1 本週新片
- 9-2 中文片名和英文片名
- 9-3 上映日期
- 9-4 期待度
- 9-5 影片摘要
- 9-6 劇照海報
- 9-7 爬取兄弟節點
- 9-8 預告片
- 9-9 排行榜
第十章台灣主流媒體網站
- 10-1 蘋果日報
- 10-2 聯合報
- 10-3 經濟日報
- 10-4 中國時報
- 10-5 工商時報
第十一章 Python 與SQLite 資料庫
- 11-1 SQLite 基本觀念
- 11-2 資料庫連線
- 11-3 SQLite 資料類型
- 11-4 建立SQLite 資料庫表單
- 11-5 增加SQLite 資料庫表單紀錄
- 11-6 查詢SQLite 資料庫表單
- 11-7 更新SQLite 資料庫表單紀錄
- 11-8 刪除SQLite 資料庫表單紀錄
- 11-9 DB Browser for SQLite
  - 11-9-1 安裝DB Browser for SQLite
  - 11-9-2 建立新的SQLite 資料庫
  - 11-9-3 開啟舊的SQLite 資料庫
- 11-10 將台北人口數儲存SQLite 資料庫
第十二章股市數據爬取與分析
- 12-1 證券櫃檯買賣中心
  - 12-1-1 獲得特定股票的CSV 檔案
  - 12-1-2 一個月的收盤價分析
  - 12-1-3 使用爬蟲下載個股成交資訊的收盤價數據
- 12-2 台灣證券交易所
  - 12-2-1 獲得特定股票的盤後資訊
  - 12-2-2 台泥年度收盤價分析
  - 12-2-3 獲得每天股票每5 秒的成交資訊
- 12-3 Yahoo 股市資訊
- 12-4 台灣股市資料讀取與圖表製作
  - 12-4-1 Stock（）建構元
  - 12-4-2 Stock 物件屬性
  - 12-4-3 Stock 物件方法
  - 12-4-4 取得單一股票之即時資料realtime.get（）
- 12-5 國際股市數據爬取
  - 12-5-1 爬取Nasdaq 的收盤指數
  - 12-5-2 解析字串NASDAQ Composite Index
  - 12-5-3 列出NASDAQ 指數相關資料
第十三章金融資訊的應用
- 13-1 台灣銀行利率查詢
- 13-2 取得HTML 文件
- 13-3 分析HTML 文件
- 13-4 將利率表儲存成CSV 檔案
- 13-5 取得最優惠利率
- 13-6 基金資料
第十四章 YouBike 數據
- 14-1 台北市的YouBike 數據
  - 14-1-1 獲得YouBike 數據
  - 14-1-2 JSON 數據檢視器
- 14-2 認識YouBike 的JSON 數據
- 14-3 下載與儲存YouBike 資料
- 14-4 獲得天母運動公園的YouBike 數據
- 14-5 計算YouBike 車輛使用效率
第十五章星座屋網站
- 15-1 進入星座屋網站
- 15-2 分析網站與爬取星座運勢文字
- 15-3 星座圖片的下載
第十六章小說網站
- 16-1 進入小說網站
- 16-2 解析網頁
- 16-3 處理編碼問題
- 16-4 爬取書籍章節標題
- 16-5 爬取章節內容的連結
- 16-6 從章節超連結輸出小說內容
- 16-7 將小說內文存入檔案
第十七章台灣高鐵與中央氣象局數據
- 17-1 台灣高鐵
- 17-2 中央氣象局
第十八章維基百科
- 18-1 維基百科的中文網址
- 18-2 爬取台積電主文資料
- 18-3 台積電的簡史
- 18-4 URL 編碼
第十九章 Python 與Facebook
- 19-1 Facebook 圖形API
  - 19-1-1 初次使用需要註冊
  - 19-1-2 正式進入開發人員工具畫面
  - 19-1-3 取得權杖（Token）
  - 19-1-4 了解存取權杖的有效期間
  - 19-1-5 基本操作
  - 19-1-6 取得上述篩選貼文的網址cURL
  - 19-1-7 使用瀏覽器顯示貼文
  - 19-1-8 設計網路爬蟲讀取Facebook 的貼文與相關資料
- 19-2 facebook-sdk 存取資料的應用
  - 19-2-1 基本觀念
  - 19-2-2 認識facebook-sdk 的基本方法
  - 19-2-3 過濾貼文欄位
  - 19-2-4 取得我過去按讚的社團
  - 19-2-5 列出臉書的朋友數
  - 19-2-6 下載臉書圖片
第二十章 Google API
- 20-1 申請Google API 金鑰
- 20-2 基本操作Google Map
- 20-3 爬蟲擷取Google 地理資訊
- 20-4 地理資訊的基本應用
- 20-5 找尋指定區域內的景點
第二十一章 Yahoo 拍賣網站
- 21-1 Yahoo 拍賣網站
- 21-2 分析網頁與單個商品搜尋
- 21-3 系列商品搜尋
第二十二章日常生活的應用
- 22-1 租房資訊
  - 22-1-1 HouseFun 網站網址
  - 22-1-2 頁面分析
  - 22-1-3 找出第一頁的出租訊息
- 22-2 台鐵網站
  - 22-2-1 台鐵網站網址
  - 22-2-2 頁面分析
  - 22-2-3 列出台中鐵路餐廳所有便當
- 22-3 博客來電腦書排行榜
  - 22-3-1 電腦書7 天榜
  - 22-3-2 爬取博客來電腦書7 天榜的資訊
  - 22-3-2 爬取博客來電腦書30 天榜的資訊
第二十三章網路趨勢
- 23-1 使用Google Trends
- 23-2 執行搜尋
  - 23-2-1 搜尋單一關鍵字
  - 23-2-2 關鍵字熱度的比較
- 23-3 使用pytrends 模組
  - 23-3-1 建立連接到Google 的物件
  - 23-3-2 建立build_payload
  - 23-3-3 取得關鍵字的歷史資料interest_over_time（）
  - 23-3-4 程式實例
- 23-4 每天或今天搜尋熱門的關鍵字
  - 23-4-1 每天搜尋熱門的關鍵字
  - 23-4-2 今天熱門搜尋的關鍵字
- 23-5 年度熱門搜尋的關鍵字
- 23-6 查詢同時列出建議關鍵字
- 23-7 查詢關鍵字的相關查詢
- 23-8 查詢關鍵字的相關主題
- 23-9 關鍵字熱門搜尋區域
第二十四章 Requests-HTML 模組
- 24-1 安裝與導入
- 24-2 使用者請求Session
- 24-3 認識回傳資料型態與幾個重要屬性
- 24-4 數據清洗與爬取
  - 24-4-1 使用find（）方法
  - 24-4-2 使用xpath（）方法
  - 24-4-3 搜尋search（）
- 24-5 搜尋豆瓣電影網站
- 24-6 Ajax 動態數據加載
第二十五章人力銀行網站
- 25-1 認識人力銀行網頁
- 25-2 分析與設計簡單的爬蟲程式
- 25-3 更進一步分析網頁
第二十六章 Scrapy
- 26-1 安裝Scrapy
- 26-2 從簡單的實例開始——建立Scrapy 專案
  - 26-2-1 Scrapy 專案框架
  - 26-2-2 Scrapy 專案框架的檔案說明
  - 26-2-3 爬蟲程式設計
- 26-3 Scrapy 定位元素
- 26-4 使用cookie 登入
- 26-5 保存文件為JSON 和CSV 檔案
- 26-6 Scrapy 架構圖
  - 26-6-1 Scrapy 的控件
  - 26-6-2 數據流Data Flow
- 26-7 專題——爬取多頁PTT 資料

詳細資訊

出版地：臺灣
語言：繁體中文
DOI ： 10.978.9860776/478

Python網路爬蟲：大數據擷取、清洗、儲存與分析－王者歸來

評分與評論

請登入後再留言與評分

商管‧財經

多媒體電子書

文學‧小說

設計‧藝術

生活

圖文‧漫畫

科普

人文

社科

親子‧童書

語言

電腦

考用‧參考書

理工農醫

學術書

政府出版品

總類

哲學類

宗教類

科學類

應用科學類

社會科學類

中國史地

世界史地

語言文學類

藝術類