利用GOOGLE“偷”資料

huiter發表於2012-07-12
本文以點點網的資料獲取為例,講述如何利用GOOGLE抓資料。  

每個PM都需要做競品分析,而資料是競品分析中很主要的一部分。
如何獲取資料呢?

  • 要麼是“內鬼”,
  • 要麼是“不靠譜的分析網站”。
  • 要麼是“XXX”,我也不知道~~~。

一次,我接到了對點點網的進行競品分析的任務。
於是怎麼拿資料,成了困擾我的問題。
然後就是一段苦思冥想,最後靈光一閃——Google高階搜尋!!!

我們先來了解一下Google的高階搜尋功能吧。
傳送門:http://www.google.com.hk/advanced_search

然後按以下標準縮小搜尋結果範圍...

字詞匹配:
語言:
地區:
最後更新時間:
網站或域:
字詞出現位置:
安全搜尋:
。。。

功能很強大,恰到地組合可以達到驚人的功能。
上面傳送的頁面提供了一個視覺化的搜尋操作,實際我們可以直接手寫出連結。

如:allinurl: "diandian.com" +post –www site:diandian.com
表示採用在網頁網址中的搜尋方式,在站diandian.com中搜尋那些與"diandian.com"完全匹配,帶有"post",不帶有"www"的內容。

你可能要問這有什麼用?
首先,我們先來看下點點網的URL設計

推薦頁:http://www.diandian.com/category/時尚
發現:http://www.diandian.com/wall
部落格首頁:http://thanks-love.diandian.com/
投稿頁:http://thanks-love.diandian.com/submit
歸檔頁:http://thanks-love.diandian.com/archive
站內搜尋結果:http://thanks-love.diandian.com/?search=1&tag=文字
博文頁:http://thanks-love.diandian.com/post/2011-11-10/6644198
推薦博主:http://www.diandian.com/explore/hot/recommend/hiendme.diandian.com
TAG頁:http://www.diandian.com/tag/藝術
。。。

可見不同的URL可以代表不同的意義。 比如我想知道2012年7月1日,點點網有多少新增文章。我就可以在GOOGLE中輸入:

allinurl: "diandian.com" +diandian.com/post/2012-07-01/ site:diandian.com
找到約 35,300 條結果 (用時 0.22 秒)

可知7月1日有35000多條新博文產生。當然這個資料的準確程度要依靠GOOGLE的爬取程度了。
個人覺得知名站點應該在90%以上。

通過對URL的分析,我可以知道點點日發文量,現在有多少博主,現在有多少博文,現在有多少TAG。。。


好吧這一節就到這為止了,谷歌的高階搜尋功能是一個利器,用好就如同有了通天的本領,不需內鬼也可知他家之事。

相關文章