python爬取去哪兒出境遊攻略
近期,關於熱門旅遊目的地泰國的旅遊安全問題受到熱議,好在官網已經針對這些假新聞進行了闢謠,一些旅行社表示經過這次泰國遊安全問題熱議雖然暫未收到退訂單的情況,但預訂量有所減少。相關的不實言論容易對旅遊情緒產生極大的負面影響。
事實上,截至目前泰國遊仍是國內出境遊的目的地國家之一,無論在各線上旅遊平臺上的搜尋熱度還是預訂量均位居前列。馬蜂窩大資料顯示,近一週馬蜂窩站內“五一出境遊”相關熱度上漲超過110%,泰國、馬來西亞、印度尼西亞、日本、西班牙位居目前五一假期訂單量最高的境外目的地前五。
我想很多人處境遊之前肯定會做很多的攻略, 但是網上攻略太多了看得頭皮發麻,但是仔細看的話每條旅遊攻略都有特定的引數條件的,比如人數、價錢、遊玩時間,也就是說我們可以透過篩選這些條件初步獲取我們滿意的攻略。要實現這樣讓人滿意的攻略唯有python爬蟲,所以這裡我們就透過使用python爬取去哪兒有關出國遊的各種攻略來制定自己的一份滿意的出遊路線。
爬取資料過程中最重要的就是解決反爬機制的問題,一般網站都是從3個方面進行反爬限制, 使用者請求的Headers、 使用者行為、 網站目錄和資料載入方式,其中比較常見的就是基於使用者行為的反爬,特別是同一IP短時間內多次訪問的限制,對於這種情況直接使用爬蟲代理IP就可以解決。
代理IP的獲取也是很簡單的事,網上有免費和付費的,但是質量都層次不齊。如果是企業裡需要的話,建議直接購買優質代理,不僅代理質量有保證,售後也是有保證的嗎。代理在爬蟲程式裡面的實現方法這裡可以分享下:
// 要訪問的目標頁面
string targetUrl = "
// 代理伺服器(產品官網 )
string proxyHost = "
string proxyPort = "31111";
// 代理驗證資訊
string proxyUser = "16ZWCETA";
string proxyPass = "852746";
// 設定代理伺服器
WebProxy proxy = new WebProxy(string.Format("{0}:{1}", proxyHost, proxyPort), true);
ServicePointManager.Expect100Continue = false;
var request = WebRequest.Create(targetUrl) as HttpWebRequest;
request.AllowAutoRedirect = true;
request.KeepAlive = true;
request.Method = "GET";
request.Proxy = proxy;
//request.Proxy.Credentials = CredentialCache.DefaultCredentials;
request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);
// 設定Proxy Tunnel
// Random ran=new Random();
// int tunnel =ran.Next(1,10000);
// request.Headers.Add("Proxy-Tunnel", String.valueOf(tunnel));
//request.Timeout = 20000;
//request.ServicePoint.ConnectionLimit = 512;
//request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36";
//request.Headers.Add("Cache-Control", "max-age=0");
//request.Headers.Add("DNT", "1");
//String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding("ISO-8859-1").GetBytes(proxyUser + ":" + proxyPass));
//request.Headers.Add("Proxy-Authorization", "Basic " + encoded);
using (var response = request.GetResponse() as HttpWebResponse)
using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8))
{
string htmlStr = sr.ReadToEnd();
}
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31522063/viewspace-2941903/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- PySpider爬取去哪兒攻略資料專案IDE
- Python 爬蟲(六):使用 Scrapy 爬取去哪兒網景區資訊Python爬蟲
- pyspider 實戰專案之爬取去哪兒IDE
- 大型爬蟲案例:爬取去哪兒網自由行資料(10萬條資料)爬蟲
- 去哪兒:2015年出境機票大資料包告大資料
- 去哪兒網:2015年出境機票大資料包告大資料
- 2017年中國出境旅遊資料解讀 出境遊增速已降至0.8%
- 春節期間出境遊APP火爆APP
- java想到哪兒寫到哪兒Java
- 爬蟲進階之去哪兒酒店(國內外)爬蟲
- 出境WiFi租賃憑芝麻分免押金 飛豬鞏固出境遊地位WiFi
- Python3 爬蟲快速入門攻略Python爬蟲
- “網際網路+旅遊”,去哪兒網攜手拉薩旅遊局開啟出遊新模式模式
- Python爬取13個旅遊城市,告訴你五一大家最愛去哪玩?Python
- Python爬蟲和java爬蟲哪個效率高Python爬蟲Java
- 米哈旅遊團-杭州旅遊攻略
- 中國旅遊研究院&攜程旅遊:2018中國遊客出境遊大資料大資料
- 大師哪兒大?
- 中國旅遊研究院:2016中國出境旅遊大資料大資料
- 【譯】哥們兒,我的方法哪兒去了?
- python爬蟲是什麼?爬蟲可以分為哪幾類?Python爬蟲
- vue去哪兒複習Vue
- Vue—去哪兒筆記Vue筆記
- 窮遊網:2014年中國出境自助遊行業報告(附全文)行業
- 學Python爬蟲哪個機構好一點?Python爬蟲
- Golang之變數去哪兒?Golang變數
- Java永久代去哪兒了Java
- Flutter 重構去哪兒QTalkFlutterQT
- ForwardKeys:2020年春節中國出境遊預訂下滑6.8%Forward
- 途牛:2017中國線上郵輪出境旅遊消費分析
- 從中國出境市場結構剖析中國企業跨國旅遊投資
- 為什麼python爬蟲業務要建立使用ip代理池?911s5關停該去哪兒購買ip?Python爬蟲
- php自定義函式放哪兒PHP函式
- 資料分析之去哪兒酒店
- 暑假旅遊新攻略,網路電話無漫遊打長途
- 騰訊社交廣告:2016-2017旅遊行業出境遊市場研究報告行業
- 爬了知乎 200 萬資料,圖說程式設計師都喜歡去哪兒工作程式設計師
- 去哪兒:2016年清明節出遊大資料 北上廣成最熱門城市大資料