利用GOOGLE“偷”資料
本文以點點網的資料獲取為例,講述如何利用GOOGLE抓資料。
每個PM都需要做競品分析,而資料是競品分析中很主要的一部分。
如何獲取資料呢?
- 要麼是“內鬼”,
- 要麼是“不靠譜的分析網站”。
- 要麼是“XXX”,我也不知道~~~。
一次,我接到了對點點網的進行競品分析的任務。
於是怎麼拿資料,成了困擾我的問題。
然後就是一段苦思冥想,最後靈光一閃——Google高階搜尋!!!
我們先來了解一下Google的高階搜尋功能吧。
傳送門:http://www.google.com.hk/advanced_search
然後按以下標準縮小搜尋結果範圍...
字詞匹配:
語言:
地區:
最後更新時間:
網站或域:
字詞出現位置:
安全搜尋:
。。。
功能很強大,恰到地組合可以達到驚人的功能。
上面傳送的頁面提供了一個視覺化的搜尋操作,實際我們可以直接手寫出連結。
如:allinurl: "diandian.com" +post –www site:diandian.com
表示採用在網頁網址中的搜尋方式,在站diandian.com中搜尋那些與"diandian.com"完全匹配,帶有"post",不帶有"www"的內容。
你可能要問這有什麼用?
首先,我們先來看下點點網的URL設計
推薦頁:http://www.diandian.com/category/時尚
發現:http://www.diandian.com/wall
部落格首頁:http://thanks-love.diandian.com/
投稿頁:http://thanks-love.diandian.com/submit
歸檔頁:http://thanks-love.diandian.com/archive
站內搜尋結果:http://thanks-love.diandian.com/?search=1&tag=文字
博文頁:http://thanks-love.diandian.com/post/2011-11-10/6644198
推薦博主:http://www.diandian.com/explore/hot/recommend/hiendme.diandian.com
TAG頁:http://www.diandian.com/tag/藝術
。。。
可見不同的URL可以代表不同的意義。 比如我想知道2012年7月1日,點點網有多少新增文章。我就可以在GOOGLE中輸入:
allinurl: "diandian.com" +diandian.com/post/2012-07-01/ site:diandian.com
找到約 35,300 條結果 (用時 0.22 秒)
可知7月1日有35000多條新博文產生。當然這個資料的準確程度要依靠GOOGLE的爬取程度了。
個人覺得知名站點應該在90%以上。
通過對URL的分析,我可以知道點點日發文量,現在有多少博主,現在有多少博文,現在有多少TAG。。。
好吧這一節就到這為止了,谷歌的高階搜尋功能是一個利器,用好就如同有了通天的本領,不需內鬼也可知他家之事。
相關文章
- 如何正確的(?)利用 Vue.mixin() 偷懶Vue
- 如何利用Google找國外客戶?Go
- 千萬資訊洩漏,是誰在偷遊戲玩家的資料?遊戲
- 利用Google雲搭建Flarum輕論壇Go
- Google Chrome 開發者工具漏洞利用GoChrome
- 利用反射讀取資料庫資料反射資料庫
- 英偉達神秘影片基礎模型「Cosmos」曝光,資料全靠偷模型
- 進來偷學一招,資料歸檔二三事兒
- postgresql資料庫利用方式SQL資料庫
- 你的企業安全軟體是否在背後偷傳資料?
- 利用fiddler工具,mock介面資料Mock
- 高效利用網盤--資料管理
- 利用otter對敏感資料加密加密
- Google Earth Engine下載Sentinel2資料Go
- 分散式資料庫Google Spanner原理分析KP分散式資料庫Go
- 利用Tushare資料介面+pandas進行股票資料分析
- Google AI資料卡攻略:資料集文件透明化工具包GoAI
- 利用Kettle進行資料同步(下)
- 利用RMAN備份重建資料庫資料庫
- 利用Kettle進行資料同步(上)
- 利用Omni Recover恢復IOS資料iOS
- 利用PCA進行資料降維PCA
- 利用陣列處理批次資料陣列
- 資料傳輸 | 利用 DTLE 將 MySQL 資料同步到 DBLEMySql
- 利用Google開源Java容器化工具Jib構建映象GoJava
- IT公司防止運維偷窺和篡改資料庫的最佳武器-雲堡壘機!運維資料庫
- 【PM&資料】如何正確地利用產品資料【上】
- 如何利用showdoc自動生成資料字典
- 利用Oracle資料庫傳送郵件Oracle資料庫
- 利用wordpress的資料庫操作函式資料庫函式
- Python利用pandas處理資料與分析Python
- 利用vstruct解析二進位制資料Struct
- 利用Data vault對資料倉儲建模
- 利用binlog日誌恢復mysql資料MySql
- 利用 Matplotlib 繪製資料圖形(一)
- 利用 Matplotlib 繪製資料圖形(二)
- 薦書 | 《利用Python進行資料分析》Python
- 利用CRM系統分析客戶資料
- 利用LLM生成人工合成資料