利用GOOGLE“偷”資料
本文以點點網的資料獲取為例,講述如何利用GOOGLE抓資料。
每個PM都需要做競品分析,而資料是競品分析中很主要的一部分。
如何獲取資料呢?
- 要麼是“內鬼”,
- 要麼是“不靠譜的分析網站”。
- 要麼是“XXX”,我也不知道~~~。
一次,我接到了對點點網的進行競品分析的任務。
於是怎麼拿資料,成了困擾我的問題。
然後就是一段苦思冥想,最後靈光一閃——Google高階搜尋!!!
我們先來了解一下Google的高階搜尋功能吧。
傳送門:http://www.google.com.hk/advanced_search
然後按以下標準縮小搜尋結果範圍...
字詞匹配:
語言:
地區:
最後更新時間:
網站或域:
字詞出現位置:
安全搜尋:
。。。
功能很強大,恰到地組合可以達到驚人的功能。
上面傳送的頁面提供了一個視覺化的搜尋操作,實際我們可以直接手寫出連結。
如:allinurl: "diandian.com" +post –www site:diandian.com
表示採用在網頁網址中的搜尋方式,在站diandian.com中搜尋那些與"diandian.com"完全匹配,帶有"post",不帶有"www"的內容。
你可能要問這有什麼用?
首先,我們先來看下點點網的URL設計
推薦頁:http://www.diandian.com/category/時尚
發現:http://www.diandian.com/wall
部落格首頁:http://thanks-love.diandian.com/
投稿頁:http://thanks-love.diandian.com/submit
歸檔頁:http://thanks-love.diandian.com/archive
站內搜尋結果:http://thanks-love.diandian.com/?search=1&tag=文字
博文頁:http://thanks-love.diandian.com/post/2011-11-10/6644198
推薦博主:http://www.diandian.com/explore/hot/recommend/hiendme.diandian.com
TAG頁:http://www.diandian.com/tag/藝術
。。。
可見不同的URL可以代表不同的意義。 比如我想知道2012年7月1日,點點網有多少新增文章。我就可以在GOOGLE中輸入:
allinurl: "diandian.com" +diandian.com/post/2012-07-01/ site:diandian.com
找到約 35,300 條結果 (用時 0.22 秒)
可知7月1日有35000多條新博文產生。當然這個資料的準確程度要依靠GOOGLE的爬取程度了。
個人覺得知名站點應該在90%以上。
通過對URL的分析,我可以知道點點日發文量,現在有多少博主,現在有多少博文,現在有多少TAG。。。
好吧這一節就到這為止了,谷歌的高階搜尋功能是一個利器,用好就如同有了通天的本領,不需內鬼也可知他家之事。
相關文章
- Simpliflying:航空公司如何利用Google+?–資料資訊圖Go
- 如何正確的(?)利用 Vue.mixin() 偷懶Vue
- Google Chrome 開發者工具漏洞利用GoChrome
- 千萬資訊洩漏,是誰在偷遊戲玩家的資料?遊戲
- 英偉達神秘影片基礎模型「Cosmos」曝光,資料全靠偷模型
- Google資料:Android系統版本資料GoAndroid
- 賽門鐵克批Google:儲存使用者cookies等於偷窺GoCookie
- 利用反射讀取資料庫資料反射資料庫
- 如何利用Google找國外客戶?Go
- 利用Google API生成二維碼GoAPI
- 進來偷學一招,資料歸檔二三事兒
- mysql 資料庫部署(google like?)MySql資料庫Go
- postgresql資料庫利用方式SQL資料庫
- 利用materialized view同步資料ZedView
- 你的企業安全軟體是否在背後偷傳資料?
- 女秘書偷竊公司資料 “死對頭”幫忙抓家賊
- 利用Google雲搭建Flarum輕論壇Go
- Google App Engine中使用資料庫GoAPP資料庫
- 高效利用網盤--資料管理
- 利用otter對敏感資料加密加密
- (利用索引)大資料查詢索引大資料
- 利用CSV 引擎載入資料
- 利用WebClient進行資料抓取Webclient
- 利用RMAN建立STANDBY資料庫資料庫
- 如何利用 Google AdMob從應用獲利?Go
- 利用IDC從資料庫中取得資料 (轉)資料庫
- 施密特稱Google資料不再被監視Go
- Google的uProxy使用了WebRTC資料通道GoWeb
- Browser Media:Google+慘淡的資料Go
- Mashable:Google搜尋背後的資料Go
- 利用Omni Recover恢復IOS資料iOS
- 利用Kettle進行資料同步(下)
- 利用fiddler工具,mock介面資料Mock
- 利用PCA進行資料降維PCA
- 利用Kettle進行資料同步(上)
- 利用CSOM向列表新增資料夾
- 利用flashback閃回表和資料
- 如何利用資料優化運營?優化