微博爬蟲 java實現

破棉襖發表於2015-08-31

java實現的新浪微博爬蟲系統,主要難點有四:

1.模擬登入,爬取時要帶上cookie。

2.如果出現Sina Visitor System(新浪訪客系統),cookie中帶上User-agent即可。

3.新浪微博採用js載入資料,採用httpClient無法獲取到資料,可採用htmlunit來完成。

4.由於格式問題,解析麻煩。


程式碼:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29754888/viewspace-1787086/,如需轉載,請註明出處,否則將追究法律責任。

相關文章