資料分析之去哪兒酒店

NGU發表於2018-08-09

原文網址 : https://juejin.im/post/5b6bcd155188257f0b584e1d

之前發了一篇爬取去哪兒自由行的資料後，有一個讀者在後臺問到我怎麼爬取去哪兒酒店的資料。當時簡單看了下,覺得難度不大。就跟他講了下思路。因為當時爬取自由行的網站選取的是移動端。為了能讓讀者學習到更多的知識，我們今天選取了去哪兒的電腦端來進行爬取。其實爬蟲的思路都是一樣的，無非就是先獲取網頁資訊，然後再解析。解析之後就提取所要的資料。如果要對資料要進一步的分析的話。還需要對資料進行清洗，建模等一系列操作。今天作者給大家帶來的就是去哪兒酒店酒店資訊的獲取，並進行資料清洗，分析。

1. 準備工作

本篇案例主要涉及到的Python的庫有Selenium，pymongo庫，以及解析庫pyquery。清洗庫pandas庫和matplotlib庫，並且安裝好了Chrome瀏覽器和配置好了ChromeDriver。

2. 頁面分析

首先訪問去哪兒網址:"https://www.qunar.com/"，然後選擇酒店這一欄。我們可以看到目前的連結為:"http://hotel.qunar.com/"。這個就是我們要訪問的域名。如下圖所示。

我們點選頁面的目的地輸入城市，然後點選搜尋即可出現酒店列表，即我們可以用Selenium來控制瀏覽器輸入城市名，然後點選。我們進入到酒店頁面。如下圖所示。

如果有更多的業務需求，我們可以選擇選單上的酒店型別,實現思路一樣。在此我們預設為"酒店搜尋"這一欄。並且選擇按評分來篩選酒店。我們隨機選擇一個酒店名，右擊開啟開發者工具。如下圖所示。

我們經過分析可知每個酒店的內容是在id為"jxContentPanel"中，並且在其下class為"b_result_box js_list_block"中可以看到每個酒店的詳細資訊。如下圖所示。

我們就可以pyquery解析庫來解析網頁獲取我們所需要的資訊了,到此網頁的解析已經完成。下面我們用程式碼來實現整個抓取的過程。

3. 實戰演練

3.1 獲取目的地城市列表

這裡我們可以使用我們之前抓取自由行資料時抓取到的目的地城市列表，實現如下：

3.2 獲取去哪兒頁面詳情頁

我們已經有目的地城市列表了，所以我們在在訪問去哪兒網址時，只用輸入所獲得的城市就可以進行搜尋了。然後就可以獲取酒店頁面了。並且我們要獲得多個頁面的酒店。所以也要實現翻頁的方法。實現如下：

3.3解析酒店列表

我們已經獲得了酒店列表頁面，接下來用解析庫pyquery進行解析，就可以獲取我們想要的資料了。實現如下:

3.4儲存到資料庫和csv檔案

3.5執行程式碼

3.6結果檢視

MongoDB資料庫結果:

CSV檔案：

3.7資料清洗

利用pandas庫和matplotlib庫進行資料清洗和簡單分析,實現如下:

結果如下：

3.8 專案程式碼

https://github.com/NGUWQ/Python3Spider/tree/master/dataanalysis

4. 結語

此專案主要功能是爬取去哪兒酒店,如果你要爬取去哪兒的其它業務，思路也是一樣的。

If it works for you.Please,star.

對爬蟲，資料分析，演算法感興趣的朋友們，可以加微信公眾號 TWcoding，我們一起玩轉Python。

相關文章

爬蟲進階之去哪兒酒店(國內外)
2018-08-21
爬蟲
Golang之變數去哪兒？
2019-03-01
Golang變數
去哪兒網：國內9成酒店恢復營業
2020-03-02
去哪兒黃勇：去哪網資料庫架構發展歷程
2018-05-07
資料庫架構
去哪兒網：2020年五一酒店平均價格也僅為2019年的75%
2020-05-06
去哪兒網裁員！
2019-03-18
Vue—去哪兒筆記
2018-05-29
Vue筆記
vue去哪兒複習
2020-10-03
Vue
Flutter 重構去哪兒QTalk
2022-03-09
FlutterQT
Java永久代去哪兒了
2021-09-09
Java
開源分散式資料庫SequoiaDB在去哪兒網的實踐
2018-10-11
分散式資料庫
阿里京東去哪兒網資料庫架構設計圖到手！
2018-05-07
阿里資料庫架構
2023年十一酒店房價普漲去哪兒平臺上國內熱門酒店預訂量同比2019年增長514%
2023-10-03
去哪兒網專案學習總結
2019-03-01
學習大資料從哪兒下手
2018-04-08
大資料
HEDNA：2018年酒店分銷資料管理與分析
2018-06-11
PySpider爬取去哪兒攻略資料專案
2021-08-01
IDE
去哪兒網企業級監控平臺-Watcher
2023-04-25
去哪兒：2021年國慶同期國內酒店預訂量增長近2成民宿預訂量增長2
2021-10-09
MySQL 中刪除的資料都去哪兒了？
2021-08-11
MySql
長連線閘道器技術專題(九)：去哪兒網酒店高效能業務閘道器技術實踐
2024-02-21
java想到哪兒寫到哪兒
2019-05-18
Java
萌物分享 | 鏟屎官，下一站去哪兒？
2018-07-23
騰訊創業：2018年古典網際網路的資金會去哪兒？
2018-07-15
創業
去哪兒旅行攜手 HarmonyOS SDK | 告別繁瑣，常用資訊秒級填充
2024-10-24
四、Vue專案去哪兒網首頁推薦和週末遊元件並使用Axios獲取資料
2020-10-27
Vue元件iOS
去哪兒網領域驅動設計（DDD）實踐之路
2021-05-10
資料分析之tableau
2024-09-05
資料分析之matplotlib
2020-12-05
資料分析平臺哪個好
2024-01-15
資料分析用哪個系統
2023-12-13
大型爬蟲案例：爬取去哪兒網自由行資料(10萬條資料)
2018-08-05
爬蟲
pyspider 實戰專案之爬取去哪兒
2018-07-07
IDE
Vue2.5去哪兒網App開發實戰(一) - 簡介
2019-02-13
VueAPP
[需求建議]貌似好久沒動靜了,新版本去哪兒？
2020-04-04
Java21虛擬執行緒：我的鎖去哪兒了？
2024-10-19
Java執行緒
去哪兒：2021年春運機票均價已降至651.36元
2021-01-26
資料告訴你特斯拉都賣到中國哪兒了
2018-11-12