scraping_深入瞭解一個網站的方法

Pop_Rain發表於2017-05-17

檢查robots.txt(瞭解抓取該網站時存在哪些限制)

檢查sitemap(一般在robots.txt中能找到,這裡提供了該網站的所有網頁的連結)

估算網站大小(一個簡便方法是檢查Google爬蟲的結果 -> site:www.baidu.com)

識別網站所用技術(python中的builtwith方法 -> builtwith.parse("www.baidu.com") )

尋找網站所有者(whois查詢:站長或者python中的 -> print(whois.whois("www.baidu.com"))  )



相關文章