Python 爬蟲實戰(1):分析豆瓣中最新電影的影評

發表於2017-08-11

簡介

剛接觸python不久,做一個小專案來練練手。前幾天看了《戰狼2》,發現它在最新上映的電影裡面是排行第一的,如下圖所示。準備把豆瓣上對它的影評做一個分析。
1531315665-598193ac5c9bb_articlex

目標總覽

主要做了三件事:

  • 抓取網頁資料
  • 清理資料
  • 用詞雲進行展示
    使用的python版本是3.5.

一、抓取網頁資料

第一步要對網頁進行訪問,python中使用的是urllib庫。程式碼如下:

其中https://movie.douban.com/nowp…是豆瓣最新上映的電影頁面,可以在瀏覽器中輸入該網址進行檢視。

html_data是字串型別的變數,裡面存放了網頁的html程式碼。
輸入print(html_data)可以檢視,如下圖所示:

1531315665-598193ac5c9bb_articlex

第二步,需要對得到的html程式碼進行解析,得到裡面提取我們需要的資料。
在python中使用BeautifulSoup庫進行html程式碼的解析。
(注:如果沒有安裝此庫,則使用pip install BeautifulSoup進行安裝即可!)
BeautifulSoup使用的格式如下:

第一個引數為需要提取資料的html,第二個引數是指定解析器,然後使用find_all()讀取html標籤中的內容。

但是html中有這麼多的標籤,該讀取哪些標籤呢?其實,最簡單的辦法是我們可以開啟我們爬取網頁的html程式碼,然後檢視我們需要的資料在哪個html標籤裡面,再進行讀取就可以了。如下圖所示:

1531315665-598193ac5c9bb_articlex

從上圖中可以看出在div id=”nowplaying標籤開始是我們想要的資料,裡面有電影的名稱、評分、主演等資訊。所以相應的程式碼編寫如下:

其中nowplaying_movie_list 是一個列表,可以用print(nowplaying_movie_list[0])檢視裡面的內容,如下圖所示:

1531315665-598193ac5c9bb_articlex

在上圖中可以看到data-subject屬性裡面放了電影的id號碼,而在img標籤的alt屬性裡面放了電影的名字,因此我們就通過這兩個屬性來得到電影的id和名稱。(注:開啟電影短評的網頁時需要用到電影的id,所以需要對它進行解析),編寫程式碼如下:

其中列表nowplaying_list中就存放了最新電影的id和名稱,可以使用print(nowplaying_list)進行檢視,如下圖所示:

1531315665-598193ac5c9bb_articlex

可以看到和豆瓣網址上面是匹配的。這樣就得到了最新電影的資訊了。接下來就要進行對最新電影短評進行分析了。例如《戰狼2》的短評網址為:https://movie.douban.com/subject/26363254/comments?start=0&limit=20

其中26363254就是電影的id,start=0表示評論的第0條評論。

接下來接對該網址進行解析了。開啟上圖中的短評頁面的html程式碼,我們發現關於評論的資料是在div標籤的comment屬性下面,如下圖所示:

1531315665-598193ac5c9bb_articlex

因此對此標籤進行解析,程式碼如下:

此時在comment_div_lits 列表中存放的就是div標籤和comment屬性下面的html程式碼了。在上圖中還可以發現在p標籤下面存放了網友對電影的評論,如下圖所示:

1531315665-598193ac5c9bb_articlex

因此對comment_div_lits 程式碼中的html程式碼繼續進行解析,程式碼如下:

使用print(eachCommentList)檢視eachCommentList列表中的內容,可以看到裡面存裡我們想要的影評。如下圖所示:

1531315665-598193ac5c9bb_articlex

好的,至此我們已經爬取了豆瓣最近播放電影的評論資料,接下來就要對資料進行清洗和詞雲顯示了。

二、資料清洗

為了方便進行資料進行清洗,我們將列表中的資料放在一個字串陣列中,程式碼如下:

使用print(comments)進行檢視,如下圖所示:

1531315665-598193ac5c9bb_articlex

可以看到所有的評論已經變成一個字串了,但是我們發現評論中還有不少的標點符號等。這些符號對我們進行詞頻統計時根本沒有用,因此要將它們清除。所用的方法是正規表示式。python中正規表示式是通過re模組來實現的。程式碼如下:

繼續使用print(cleaned_comments)語句進行檢視,如下圖所示:

1531315665-598193ac5c9bb_articlex
我們可以看到此時評論資料中已經沒有那些標點符號了,資料變得“乾淨”了很多。

因此要進行詞頻統計,所以先要進行中文分詞操作。在這裡我使用的是結巴分詞。如果沒有安裝結巴分詞,可以在控制檯使用pip install jieba進行安裝。(注:可以使用pip list檢視是否安裝了這些庫)。程式碼如下所示:

因為結巴分詞要用到pandas,所以我們這裡載入了pandas包。可以使用words_df.head()檢視分詞之後的結果,如下圖所示:

1531315665-598193ac5c9bb_articlex

從上圖可以看到我們的資料中有“看”、“太”、“的”等虛詞(停用詞),而這些詞在任何場景中都是高頻時,並且沒有實際的含義,所以我們要他們進行清除。

我把停用詞放在一個stopwords.txt檔案中,將我們的資料與停用詞進行比對即可(注:只要在百度中輸入stopwords.txt,就可以下載到該檔案)。去停用詞程式碼如下程式碼如下:

繼續使用words_df.head()語句來檢視結果,如下圖所示,停用詞已經被出去了。

1531315665-598193ac5c9bb_articlex

接下來就要進行詞頻統計了,程式碼如下:

words_stat.head()進行檢視,結果如下:

1531315665-598193ac5c9bb_articlex

由於我們前面只是爬取了第一頁的評論,所以資料有點少,在最後給出的完整程式碼中,我爬取了10頁的評論,所資料還是有參考價值。

三、用詞雲進行顯示

程式碼如下:

其中simhei.ttf使用來指定字型的,可以在百度上輸入simhei.ttf進行下載後,放入程式的根目錄即可。顯示的影象如下:

1531315665-598193ac5c9bb_articlex

到此為止,整個專案的介紹就結束了。由於自己也還是個初學者,接觸python不久,程式碼寫的並不好。而且第一次寫技術部落格,表達的有些冗餘,請大家多多包涵,有不對的地方,請大家批評指正。以後我也會將自己做的小專案以這種形式寫在部落格上和大家一起交流!最後貼上完整的程式碼。

完整程式碼

結果顯示如下:

1531315665-598193ac5c9bb_articlex

上圖基本反映了《戰狼2》這部電影的情況。PS:我本人並不喜歡這部電影,內容太空洞、太假,為了愛國而愛國,沒意思。哎,這兩年真是國產電影的低谷啊,沒有一部拿得出手的國產電影,看看人家印度拍的《摔跤吧,爸爸》那才是拍的有深度,同樣是表現愛國,國產電影還是需要向別的國家好好學學。

相關文章