0人評分過此書

Python網路爬蟲:大數據擷取、清洗、儲存與分析-王者歸來

出版日期
2021
閱讀格式
PDF
書籍分類
學科分類
ISBN
9789860776478

計次服務

借閱規則
借閱天數 7
選擇分享方式

推薦本館採購書籍

您可以將喜歡的電子書推薦給圖書館,圖書館會參考讀者意見進行採購

讀者資料
圖書館 和信治癌中心醫院
* 姓名
* 身分
系所
* E-mail
※ 我們會寄送一份副本至您填寫的Email中
電話
※ 電話格式為 區碼+電話號碼(ex. 0229235151)/ 手機格式為 0900111111
* 請輸入驗證碼
Python網路爬蟲
大數據擷取、清洗、儲存與分析
王者歸來(第二版)
★★★本書第一版是【博客來2020年】【電腦書年度暢銷榜第3名】★★★
★★★★★【26個主題】+【400個實例】★★★★★
★★★★★從【零】開始的【網路爬蟲入門書籍】★★★★★
★★★★★大數據【擷取】、【清洗】、【儲存與分析】★★★★★
★★★★★【網路趨勢】+【了解輿情】★★★★★

第二版和第一版做比較,增加下列內容:
★:全書增加約50個程式實例
★:網路趨勢,了解輿情
★:網路關鍵字查詢
★:YouBike資訊
★:國際金融資料查詢
★:博客來圖書排行榜
★:中央氣象局
★:租屋網站
★:生活應用

下列是本書有關網路爬蟲知識的主要內容:
★:認識搜尋引擎與網路爬蟲
★:認識約定成俗的協議robots.txt
★:從零開始解析HTML網頁
★:認識與使用Chrome開發人員環境解析網頁
★:認識Python內建urllib、urllib2模組,同時介紹好用的requests模組
★:說明lxml模組
★:Selenium模組
★:XPath方法解說
★:css定位網頁元素
★:Cookie觀念
★:自動填寫表單
★:使用IP代理服務與實作
★:偵測IP
★:更進一步解說更新的模組Requests-HTML
★:認識適用大型爬蟲框架的Scrapy模組

在書籍內容,筆者設計爬蟲程式探索下列相關網站:
☆:國際與國內股市資訊
☆:基金資訊
☆:股市數據
☆:人力銀行
☆:維基網站
☆:主流媒體網站
☆:政府開放數據網站
☆:YouBike服務網站
☆:PTT網站
☆:電影網站
☆:星座網站
☆:小說網站
☆:博客來網站
☆:中央氣象局
☆:露天拍賣網站
☆:httpbin網站
☆:python.org網站
☆:github.com網站
☆:ipstack.com網站API實作
☆:Google API實作
☆:Facebook API實作

探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據:
★:CSV檔案格式
★:JSON檔案格式
★:XML、Pickle
★:Excel
★:SQLite

在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題:
☆:URL編碼與中文網址觀念
☆:將中文儲存在JSON格式檔案
☆:亂碼處理
☆:簡體中文在繁體中文Windows環境資料下載與儲存
☆:解析Ajax動態加載網頁,獲得更多頁次資料
☆:使用Chromium瀏覽器協助Ajax動態加載
  • 第零章 認識網路爬蟲
    • 0-1 認識HTML
    • 0-2 網路地址URL
    • 0-3 爬蟲的類型
    • 0-4 搜尋引擎與爬蟲原理
      • 0-4-1 搜尋引擎工作原理
      • 0-4-2 網路爬蟲工作原理
    • 0-5 網路爬蟲的搜尋方法
    • 0-6 網路爬蟲是否合法
    • 0-7 認識HTTP 與HTTPS
    • 0-8 表頭(headers)
  • 第一章 JSON 資料與繪製世界地圖
    • 1-1 JSON 資料格式前言
    • 1-2 認識json 資料格式
      • 1-2-1 物件(object)
      • 1-2-2 陣列(array)
      • 1-2-3 json 資料存在方式
    • 1-3 將Python 應用在json 字串形式資料
      • 1-3-1 使用dumps()將Python 資料轉成json 格式
      • 1-3-2 dumps()的sort_keys 參數
      • 1-3-3 dumps()的indent 參數
      • 1-3-4 使用loads()將json 格式資料轉成Python 的資料
      • 1-3-5 一個json 文件只能放一個json 物件?
    • 1-4 將Python 應用在json 檔案
      • 1-4-1 使用dump()將Python 資料轉成json 檔案
      • 1-4-2 將中文字典資料轉成json 檔案
      • 1-4-3 使用load()讀取json 檔案
    • 1-5 簡單的json 檔案應用
    • 1-6 世界人口數據的json 檔案
      • 1-6-1 認識人口統計的json 檔案
      • 1-6-2 認識pygal.maps.world 的國碼資訊
    • 1-7 繪製世界地圖
      • 1-7-1 基本觀念
      • 1-7-2 讓地圖呈現數據
      • 1-7-3 繪製世界人口地圖
    • 1-8 XML
  • 第二章 使用Python 處理CSV 文件
    • 2-1 建立一個CSV 文件
    • 2-2 用記事本開啟CSV 檔案
    • 2-3 csv 模組
    • 2-4 讀取CSV 檔案
      • 2-4-1 使用open()開啟CSV 檔案
      • 2-4-2 建立Reader 物件
      • 2-4-3 用迴圈列出Reader 物件資料
      • 2-4-4 用迴圈列出串列內容
      • 2-4-5 使用串列索引讀取CSV 內容
      • 2-4-6 DictReader()
    • 2-5 寫入CSV 檔案
      • 2-5-1 開啟欲寫入的檔案open()與關閉檔案close()
      • 2-5-2 建立writer 物件
      • 2-5-3 輸出串列writerow()
      • 2-5-4 delimiter 關鍵字
      • 2-5-5 寫入字典資料DictWriter()
    • 2-6 寫入與讀取含中文的CSV 文件
    • 2-7 專題——使用CSV 檔案繪製氣象圖表
      • 2-7-1 台北2017 年1 月氣象資料
      • 2-7-2 列出標題資料
      • 2-7-3 讀取最高溫與最低溫
      • 2-7-4 繪製最高溫
      • 2-7-5 設定繪圖區大小
      • 2-7-6 日期格式
      • 2-7-7 在圖表增加日期刻度
      • 2-7-8 日期位置的旋轉
      • 2-7-9 繪製最高溫與最低溫
      • 2-7-10 填滿最高溫與最低溫之間的區域
      • 2-7-11 後記
    • 2-8 pickle 模組
    • 2-9 Python 與Microsoft Excel
      • 2-9-1 將資料寫入Excel 的模組
      • 2-9-2 讀取Excel 的模組
  • 第三章 網路爬蟲基礎實作
    • 3-1 上網不再需要瀏覽器了
      • 3-1-1 webbrowser 模組
      • 3-1-2 認識Google 地圖
      • 3-1-3 用地址查詢地圖的程式設計
      • 3-1-4 由經緯度獲得兩地之間的距離
    • 3-2 下載網頁資訊使用requests 模組
      • 3-2-1 下載網頁使用requests.get()方法
      • 3-2-2 認識Response 物件
      • 3-2-3 搜尋網頁特定內容
      • 3-2-4 下載網頁失敗的異常處理
      • 3-2-5 網頁伺服器阻擋造成讀取錯誤
      • 3-2-6 爬蟲程式偽裝成瀏覽器
      • 3-2-7 認識robots.txt
      • 3-2-8 儲存下載的網頁
    • 3-3 檢視網頁原始檔
      • 3-3-1 建議閱讀書籍
      • 3-3-2 以Chrome 瀏覽器為實例
      • 3-3-3 檢視原始檔案的重點
    • 3-4 分析網站使用Chrome 開發人員工具
      • 3-4-1 Elements 頁面標籤
      • 3-4-2 Network 頁面標籤
      • 3-4-3 細看Request table
      • 3-4-4 細看Headers
    • 3-5 下載網頁資訊使用urllib 模組
    • 3-5-1 urllib.request 模組
      • 3-5-2 認識幾個http.client.HTTPResponse 物件屬性
      • 3-5-3 將表頭應用在urllib.request 模組使用Request()方法
      • 3-5-4 使用urllib.request 模組的urlretrieve()方法下載圖片
      • 3-5-5 urllib.parse 模組
      • 3-5-6 異常處理urllib.error
      • 3-5-7 筆者個人體驗
    • 3-6 認識httpbin 網站
      • 3-6-1 認識httpbin 網站
      • 3-6-2 get()方法
      • 3-6-3 post()方法
      • 3-6-4 認識表頭headers
      • 3-6-5 HTTP 的回應數據
    • 3-7 認識Cookie
    • 3-8 設置代理IP
  • 第四章 Pandas 模組
    • 4-1 Series
      • 4-1-1 使用串列list 建立Series 物件
      • 4-1-2 使用Python 字典dict 建立Series 物件
      • 4-1-3 使用Numpy 的ndarray 建立Series 物件
      • 4-1-4 建立含索引的Series 物件
      • 4-1-5 使用純量建立Series 物件
      • 4-1-6 列出Series 物件索引與值
      • 4-1-7 Series 的運算
    • 4-2 DataFrame
      • 4-2-1 建立DataFrame 使用Series
      • 4-2-2 欄位columns 屬性
      • 4-2-3 Series 物件的name 屬性
      • 4-2-4 使用元素是字典的串列建立DataFrame
      • 4-2-5 使用字典建立DataFrame
      • 4-2-6 index 屬性
      • 4-2-7 將columns 欄位當作DataFrame 物件的index
    • 4-3 基本Pandas 資料分析與處理
      • 4-3-1 索引參照屬性
      • 4-3-2 直接索引
      • 4-3-3 四則運算方法
      • 4-3-4 邏輯運算方法
      • 4-3-5 Numpy 的函數應用在Pandas
      • 4-3-6 NaN 相關的運算
      • 4-3-7 NaN 的處理
      • 4-3-8 幾個簡單的統計函數
      • 4-3-9 增加index
      • 4-3-10 刪除index
      • 4-3-11 排序
    • 4-4 檔案的輸入與輸出
      • 4-4-1 寫入CSV 格式檔案
      • 4-4-2 讀取CSV 格式檔案
    • 4-5 Pandas 繪圖
      • 4-5-1 使用Series 繪折線圖表
      • 4-5-2 使用DataFrame 繪圖表基本知識
      • 4-5-3 直條圖的設計
      • 4-5-4 一個圖表含不同數值資料
      • 4-5-5 多個數值軸的設計
      • 4-5-6 使用Series 物件設計圓餅圖
    • 4-6 時間序列(Time Series)
      • 4-6-1 時間模組datetime
      • 4-6-2 使用Python 的datetime 模組建立含時間戳的Series 物件
      • 4-6-3 Pandas 的時間區間方法
      • 4-6-4 將時間序列繪製折線圖
    • 4-7 專題——鳶尾花
      • 4-7-1 網路爬蟲
      • 4-7-2 將鳶尾花資料集轉成DataFrame
      • 4-7-3 散點圖的製作
      • 4-7-4 鳶尾花分類統計與直條圖
    • 4-8 專題——匯入網頁表格資料
  • 第五章 BeautifulSoup 解析網頁
    • 5-1 解析網頁使用BeautifulSoup 模組
      • 5-1-1 建立BeautifulSoup 物件
      • 5-1-2 基本HTML 文件解析——從簡單開始
      • 5-1-3 網頁標題title 屬性
      • 5-1-4 去除標籤傳回文字text 屬性
      • 5-1-5 傳回所找尋第一個符合的標籤find()
      • 5-1-6 傳回所找尋所有符合的標籤find_all()
      • 5-1-7 認識HTML 元素內容屬性與getText()
      • 5-1-8 HTML 屬性的搜尋
      • 5-1-9 使用find()或find_all()執行CSS 的搜尋
      • 5-1-10 select()
      • 5-1-11 標籤字串的get()
    • 5-2 其它HTML 文件解析
      • 5-2-1 爬取項目清單文件
      • 5-2-2 爬取自定義清單文件
      • 5-2-3 爬取表格文件
      • 5-2-4 find_next_sibling()和find_previous_sibling()
      • 5-2-5 find_next_siblings()和find_previous_siblings()
      • 5-2-6 parent()
      • 5-2-7 將parent()與find_next_sibling()/find_previous_sibling()
      • 5-2-8 將parent()與find_next_siblings()/find_previous_siblings()
    • 5-3 網路爬蟲實戰——圖片下載
    • 5-4 網路爬蟲實戰——找出台灣彩券公司最新一期威力彩開獎結果
    • 5-5 網路爬蟲實戰——列出Yahoo 焦點新聞標題和超連結
    • 5-6 IP 偵測網站FileFab
  • 第六章 網頁自動化
    • 6-1 hashlib 模組
      • 6-1-1 使用md5()方法計算中文/英文資料的哈希值
      • 6-1-2 計算檔案的哈希值
      • 6-1-3 使用sha1()方法計算哈希值
      • 6-1-4 認識此平台可以使用的哈希演算法
      • 6-1-5 認識跨平台可以使用的哈希演算法
    • 6-2 環保署空氣品質JSON 檔案實作
      • 6-2-1 下載與儲存JSON 檔案
      • 6-2-2 數據清洗
      • 6-2-3 讀取與寫入完整的環保署空氣品質資料
      • 6-2-4 記錄環保署空氣品質的aqi.json 的哈希值
    • 6-3 檢測網站內容是否更新
    • 6-4 工作排程與自動執行
    • 6-5 環保署空氣品質的CSV 檔案
      • 6-5-1 下載與儲存CSV 檔案
      • 6-5-2 數據清洗
  • 第七章 Selenium 網路爬蟲的王者
    • 7-1 順利使用Selenium 工具前的安裝工作
      • 7-1-1 安裝Selenium
      • 7-1-2 安裝瀏覽器
      • 7-1-3 錯誤的實例
      • 7-1-4 驅動程式的安裝
      • 7-1-4-1 以Firefox 為實例
      • 7-1-4-2 以Chrome 為實例
    • 7-2 獲得webdriver 的物件型態
      • 7-2-1 以Firefox 瀏覽器為實例
      • 7-2-2 以Chrome 瀏覽器為實例
    • 7-3 擷取網頁
    • 7-4 尋找HTML 文件的元素
    • 7-5 XPath 語法
      • 7-5-1 認識HTML 的架構
      • 7-5-2 絕對路徑與相對路徑
      • 7-5-3 索引爬取重複的元素
      • 7-5-4 元素的屬性值
      • 7-5-5 列出屬性值
      • 7-5-6 contains()
      • 7-5-7 隱藏參數與等待網頁載入
      • 7-5-8 進入Chrome 控制環境觀察XPath 運作
      • 7-5-9 Chrome 的外掛套件ChroPath
    • 7-6 用Python 控制點選超連結
    • 7-7 用Python 填寫表單和送出
      • 7-7-1 使用HTML 原始碼
      • 7-7-2 使用Chrome 瀏覽器
    • 7-8 用Python 處理使用網頁的特殊按鍵
    • 7-9 用Python 處理瀏覽器運作
    • 7-10 自動化下載環保署空氣品質資料
  • 第八章 PTT 爬蟲實戰
    • 8-1 認識批踢踢實業坊
    • 8-2 進入PTT 網址
    • 8-3 解析PTT 進入須滿18 歲功能鈕
    • 8-4 各篇文章的解析
    • 8-5 解析文章標題與作者
    • 8-6 推文數量
    • 8-7 文章發表日期
    • 8-8 將PTT 目前頁面內容以JSON 檔案儲存
    • 8-9 前一頁面處理的說明
    • 8-10 進入PPT 的Beauty 論壇網站
      • 8-10-1 了解目前頁面的文章數量
      • 8-10-2 列出目前頁面完整資料
      • 8-10-3 進入文章超連結
      • 8-10-4 推文或噓文
      • 8-10-5 圖片下載
    • 8-11 ipstack
      • 8-11-1 註冊取得API Key
      • 8-11-2 使用API Key 查詢IP 位址
      • 8-11-3 使用Python 處理上述JSON 檔案
      • 8-11-4 取得PTT 貼文的來源
  • 第九章 Yahoo 奇摩電影網站
    • 9-1 本週新片
    • 9-2 中文片名和英文片名
    • 9-3 上映日期
    • 9-4 期待度
    • 9-5 影片摘要
    • 9-6 劇照海報
    • 9-7 爬取兄弟節點
    • 9-8 預告片
    • 9-9 排行榜
  • 第十章 台灣主流媒體網站
    • 10-1 蘋果日報
    • 10-2 聯合報
    • 10-3 經濟日報
    • 10-4 中國時報
    • 10-5 工商時報
  • 第十一章 Python 與SQLite 資料庫
    • 11-1 SQLite 基本觀念
    • 11-2 資料庫連線
    • 11-3 SQLite 資料類型
    • 11-4 建立SQLite 資料庫表單
    • 11-5 增加SQLite 資料庫表單紀錄
    • 11-6 查詢SQLite 資料庫表單
    • 11-7 更新SQLite 資料庫表單紀錄
    • 11-8 刪除SQLite 資料庫表單紀錄
    • 11-9 DB Browser for SQLite
      • 11-9-1 安裝DB Browser for SQLite
      • 11-9-2 建立新的SQLite 資料庫
      • 11-9-3 開啟舊的SQLite 資料庫
    • 11-10 將台北人口數儲存SQLite 資料庫
  • 第十二章 股市數據爬取與分析
    • 12-1 證券櫃檯買賣中心
      • 12-1-1 獲得特定股票的CSV 檔案
      • 12-1-2 一個月的收盤價分析
      • 12-1-3 使用爬蟲下載個股成交資訊的收盤價數據
    • 12-2 台灣證券交易所
      • 12-2-1 獲得特定股票的盤後資訊
      • 12-2-2 台泥年度收盤價分析
      • 12-2-3 獲得每天股票每5 秒的成交資訊
    • 12-3 Yahoo 股市資訊
    • 12-4 台灣股市資料讀取與圖表製作
      • 12-4-1 Stock()建構元
      • 12-4-2 Stock 物件屬性
      • 12-4-3 Stock 物件方法
      • 12-4-4 取得單一股票之即時資料realtime.get()
    • 12-5 國際股市數據爬取
      • 12-5-1 爬取Nasdaq 的收盤指數
      • 12-5-2 解析字串NASDAQ Composite Index
      • 12-5-3 列出NASDAQ 指數相關資料
  • 第十三章 金融資訊的應用
    • 13-1 台灣銀行利率查詢
    • 13-2 取得HTML 文件
    • 13-3 分析HTML 文件
    • 13-4 將利率表儲存成CSV 檔案
    • 13-5 取得最優惠利率
    • 13-6 基金資料
  • 第十四章 YouBike 數據
    • 14-1 台北市的YouBike 數據
      • 14-1-1 獲得YouBike 數據
      • 14-1-2 JSON 數據檢視器
    • 14-2 認識YouBike 的JSON 數據
    • 14-3 下載與儲存YouBike 資料
    • 14-4 獲得天母運動公園的YouBike 數據
    • 14-5 計算YouBike 車輛使用效率
  • 第十五章 星座屋網站
    • 15-1 進入星座屋網站
    • 15-2 分析網站與爬取星座運勢文字
    • 15-3 星座圖片的下載
  • 第十六章 小說網站
    • 16-1 進入小說網站
    • 16-2 解析網頁
    • 16-3 處理編碼問題
    • 16-4 爬取書籍章節標題
    • 16-5 爬取章節內容的連結
    • 16-6 從章節超連結輸出小說內容
    • 16-7 將小說內文存入檔案
  • 第十七章 台灣高鐵與中央氣象局數據
    • 17-1 台灣高鐵
    • 17-2 中央氣象局
  • 第十八章 維基百科
    • 18-1 維基百科的中文網址
    • 18-2 爬取台積電主文資料
    • 18-3 台積電的簡史
    • 18-4 URL 編碼
  • 第十九章 Python 與Facebook
    • 19-1 Facebook 圖形API
      • 19-1-1 初次使用需要註冊
      • 19-1-2 正式進入開發人員工具畫面
      • 19-1-3 取得權杖(Token)
      • 19-1-4 了解存取權杖的有效期間
      • 19-1-5 基本操作
      • 19-1-6 取得上述篩選貼文的網址cURL
      • 19-1-7 使用瀏覽器顯示貼文
      • 19-1-8 設計網路爬蟲讀取Facebook 的貼文與相關資料
    • 19-2 facebook-sdk 存取資料的應用
      • 19-2-1 基本觀念
      • 19-2-2 認識facebook-sdk 的基本方法
      • 19-2-3 過濾貼文欄位
      • 19-2-4 取得我過去按讚的社團
      • 19-2-5 列出臉書的朋友數
      • 19-2-6 下載臉書圖片
  • 第二十章 Google API
    • 20-1 申請Google API 金鑰
    • 20-2 基本操作Google Map
    • 20-3 爬蟲擷取Google 地理資訊
    • 20-4 地理資訊的基本應用
    • 20-5 找尋指定區域內的景點
  • 第二十一章 Yahoo 拍賣網站
    • 21-1 Yahoo 拍賣網站
    • 21-2 分析網頁與單個商品搜尋
    • 21-3 系列商品搜尋
  • 第二十二章 日常生活的應用
    • 22-1 租房資訊
      • 22-1-1 HouseFun 網站網址
      • 22-1-2 頁面分析
      • 22-1-3 找出第一頁的出租訊息
    • 22-2 台鐵網站
      • 22-2-1 台鐵網站網址
      • 22-2-2 頁面分析
      • 22-2-3 列出台中鐵路餐廳所有便當
    • 22-3 博客來電腦書排行榜
      • 22-3-1 電腦書7 天榜
      • 22-3-2 爬取博客來電腦書7 天榜的資訊
      • 22-3-2 爬取博客來電腦書30 天榜的資訊
  • 第二十三章 網路趨勢
    • 23-1 使用Google Trends
    • 23-2 執行搜尋
      • 23-2-1 搜尋單一關鍵字
      • 23-2-2 關鍵字熱度的比較
    • 23-3 使用pytrends 模組
      • 23-3-1 建立連接到Google 的物件
      • 23-3-2 建立build_payload
      • 23-3-3 取得關鍵字的歷史資料interest_over_time()
      • 23-3-4 程式實例
    • 23-4 每天或今天搜尋熱門的關鍵字
      • 23-4-1 每天搜尋熱門的關鍵字
      • 23-4-2 今天熱門搜尋的關鍵字
    • 23-5 年度熱門搜尋的關鍵字
    • 23-6 查詢同時列出建議關鍵字
    • 23-7 查詢關鍵字的相關查詢
    • 23-8 查詢關鍵字的相關主題
    • 23-9 關鍵字熱門搜尋區域
  • 第二十四章 Requests-HTML 模組
    • 24-1 安裝與導入
    • 24-2 使用者請求Session
    • 24-3 認識回傳資料型態與幾個重要屬性
    • 24-4 數據清洗與爬取
      • 24-4-1 使用find()方法
      • 24-4-2 使用xpath()方法
      • 24-4-3 搜尋search()
    • 24-5 搜尋豆瓣電影網站
    • 24-6 Ajax 動態數據加載
  • 第二十五章 人力銀行網站
    • 25-1 認識人力銀行網頁
    • 25-2 分析與設計簡單的爬蟲程式
    • 25-3 更進一步分析網頁
  • 第二十六章 Scrapy
    • 26-1 安裝Scrapy
    • 26-2 從簡單的實例開始——建立Scrapy 專案
      • 26-2-1 Scrapy 專案框架
      • 26-2-2 Scrapy 專案框架的檔案說明
      • 26-2-3 爬蟲程式設計
    • 26-3 Scrapy 定位元素
    • 26-4 使用cookie 登入
    • 26-5 保存文件為JSON 和CSV 檔案
    • 26-6 Scrapy 架構圖
      • 26-6-1 Scrapy 的控件
      • 26-6-2 數據流Data Flow
    • 26-7 專題——爬取多頁PTT 資料

評分與評論

請登入後再留言與評分
幫助
您好,請問需要甚麼幫助呢?
使用指南

客服專線:0800-000-747

服務時間:週一至週五 AM 09:00~PM 06:00

loading