当前位置：首页>Python>正文

python爬蟲爬取網頁表格數據，python爬蟲爬取歌曲_python爬蟲實戰:爬取全站小說排行榜

喜歡看小說的騷年們都知道，總是有一些小說讓人耳目一新，不管是仙俠還是玄幻，前面更了幾十章就成功圈了一大波粉絲，成功攀上飆升榜，熱門榜等各種榜，扔幾個栗子出來：

新筆趣閣是廣大書友最值得收藏的網絡小說閱讀網,網站收錄了當前......我就不打廣告了（其他滿足下文條件的網站也行，之前已經有做過簡單爬取章節的先例了，但效果不太理想，有很多不需要的成分被留下了，來鏈接：http://python.jobbole.com/88560/。我們本文就爬取這個網站的上千本小說。重點在和大家一起分享一些爬蟲的思路和一些很常遇到的坑。

一、爬取單本小說

爬取該網站相對來講還是很容易的，打開編輯器（推薦使用PyCharm，功能強大），首先引入模塊urllib.request(Python2.x的引入urllib和urllib2即可，待會我把2.x的也寫出來給大家看看)，給出網站URL，寫下請求，再添加請求頭（雖然這個網站不封號，但作者建議還是要養成每次都寫請求頭的習慣，萬一那天碰到像豆瓣似的網站，一不留神就把你封了）話不多說，直接上圖：

python爬蟲爬取網頁表格數據。然后再將請求發送出去，定義變量response，用read（）方法觀察，注意將符號解碼成utf-8的形式，省的亂碼：

打印一下看結果：

看到這么一大條就對嘍，對比一下網頁源碼，發現是一致的。

這步觀察很重要，因為這就說明該網站沒有使用AJAX異步加載，否則就要開始抓包的工作了，這個我們留著分析動態網站時候再說。建議大家在沒有更好的方法時使用。之前記得確實有直接判斷的方法，然而一不小心忘記了，有知道的讀者還請發給我哦。

我們現在得到了網站的response，接下來就是對我們想要獲取的數據進行解析、提取，但等等，考慮到我們要爬取大量小說，不搞一個數據庫存儲真是太失敗了，作者推薦MongoDB數據庫，屬于NOSQL類型數據庫，以文檔存儲為主，這里用來爬小說真是太適合不過了。但安裝起來需要一定的程序，想要試著做做的騷年可以參考一下下載和安裝教程，參考鏈接：http://blog.csdn.net/u011262253/article/details/74858211，在安裝好后為方便啟動，可以添加環境變量，但這里有個坑，你要先打開mongod(注意是mongodb，別一上來就打開mongo)，然后需要準確添加dbpath路徑，不然打開很容易就會失敗，上圖上圖：

python爬取網易云付費音樂，失敗狀態

成功狀態

添加路徑后成功連接，出現waiting for connections on port 27017，則表示數據庫連接成功，而后就不要關掉這個終端了，只有保持數據庫是連接的，才可運行MongoDB數據庫（不然報錯你都不知道自己是怎么死的）

好了，連接好數據庫后，我們將數據庫與編輯器進行交互鏈接，位置很隱秘，在File>>Settings>>Plugins下添加組件Mongo Plugin，沒有就下載一個：

盜個圖

python爬取小說，我們在編輯器內編寫代碼，引入Python專門用來與MongoDB交互的模塊pymongo，然后在最上面鏈接MongoDB數據庫的端口，默認是27017，我們先創建一個叫做reading的數據庫，然后在reading內新建一個叫做sheet_words的數據表，代碼如下：

我們先找一個叫做《修羅武神》的小說來練練手，個人來講，我很討厭看小說時來回的翻頁，有時候還跳出廣告，這時候我還得返回去重新翻頁，作為一名懶得不行的懶人，我想到要是把整部小說放進一個文檔里再看不就好了么，但要是一章一章的復制粘貼我想還是算了吧，這時候你就知道爬蟲是有多么便捷了。好，現在我們要做的是把《修羅武神》這部小說完整的爬取下來，并在數據庫中備份。我們回到剛才停留的地方，在得到response后，我們應該選用一種方法來解析網頁，一般的方法有re,xpath,selector(css),建議新手使用xpath而不是re,一是因為re用不好很容易導致錯誤，“當你決定用正則表達式解決問題時，你有了兩個問題。”，相比較xpath才是步驟明確，十分穩妥；二是在Firefox，Chrome等瀏覽器中可以直接復制xpath路徑，大大的減少了我們的工作量，上圖：

如果你決定使用xpath之后，我們需要從lxml中引入etree模塊,然后就可以用etree中的HTML()方法來解析網頁了，從網頁>檢察元素（F12）中復制下來我們所需數據的路徑，我選擇的是小說每章的標題和內容，上圖，上圖：

路徑//div[@class="readAreaBox content"]/h1/text()

路徑/html/body/div[4]/div[2]/div[2]/div[1]/div[2]/text()

爬蟲爬取數據？注意注意，又來一個坑，當你復制xpath時得到的是這個東東：

//div[@class="readAreaBox content"]/h1

和這個東東;

/html/body/div[4]/div[2]/div[2]/div[1]/div[2]

但你需要的是這個路徑里的文本text，故我們需要另外添加具體文本：/text()，然后就像上面那樣啦。上代碼，查數據：

爬蟲python的爬取步驟。完整代碼見百度網盤：

鏈接：https://pan.baidu.com/s/1jHYNF86密碼：ho9d

小說有點大，一共是三千五百章，等個大約4-7分鐘吧，打開文件夾《修羅武神小說》，就可以看到我們下載好的無需翻頁的一整部小說，數據庫內頁備份好了每章的鏈接，它自動從零開始排的，就是說你要看第30章就得打開序號為29的鏈接，這個調一下下載時的順序就好了，作者很懶，想要嘗試下的讀者可以自行更改。

小說文本

數據庫連接

python爬蟲教程？看看，感覺還不錯吧，好的小例子講完了，接下來我們準備進入正題。

我們要像上面的例子那樣爬取整個網站，當然這里就不再建議使用普通的編輯器來來執行了，聰明的讀者已經發現，一部小說爬了4分鐘，那么上千本不說，單單是一組排行榜里的100本就夠爬好一會了，這就顯示出Scripy框架的作用，用專門的Scripy框架寫工程類爬蟲絕對快速省力，是居家寫蟲的必備良藥哇。

二、爬取小說榜所有小說

首先安裝Scrapy的所有組件，建議除pywin32以外都用pip安裝,不會的話度娘吧，很簡單的，pywin32需要下載與你所用Python版本相同的安裝文件。

來連接：https://sourceforge.net/projects/pywin32/

python爬取網易云音樂、Scrapy插件安裝成功

然后還是老規矩，不想每次終端運行都一點一點找路徑的話，就將根目錄添加到環境變量，然后打開終端，我們測試一下是否安裝成功：

Scrapy安裝成功

好，安裝完畢后，打開終端，新建一個Scrapy工程，這里你可以根據索引，選擇使用Scrapy的各種功能，這里不一一詳解了，D盤內已經出現了我們建立好的Scrapy工程文件夾：

打開文件夾，我們會看到Scrapy框架已經自動在reading文件夾中放置了我們所需的一切原材料：

python有什么用、打開內部reading文件夾，就可以在spiders文件夾中添加爬蟲py代碼文件了：

我們這里定向爬小說排行榜，除了我們寫的spider文件，還要在items.py中定義我們要爬取的內容集，有點像詞典一樣，名字可以隨便取，但已有的繼承類scrapy.Item可不能改，這是Scrapy內部自定義的類，改了它可找不到，spider就用我們上面抓取單本再加一個for循環就OK了，十分簡單，一言不合就上圖：

爬蟲文件截圖

爬取的小說排行榜

每個排行榜上大約20本小說

用python爬取網站數據。每部小說的爬取情況（用的是.json格式）

小說顯示內容

想要完整代碼的騷年們，見百度網盤鏈接：

items：

鏈接：https://pan.baidu.com/s/1pKLMyWr

爬蟲python代碼？密碼：3dee

Settings：

鏈接：https://pan.baidu.com/s/1slkKQV7

密碼：xn0u