我自己開發的工具,列印出百度貼吧某使用者發表過的所有帖子
程式碼如下:
<html> <meta charset="UTF-8"/> <style> a { color: green; font-family: arial; font-weight: bold } </style> <body> <div id="container"></div> </body> <script src="jquery1.7.1.js"> /* Jerry 2017-02-06 14:58PM update should use C:\MyApp\Chrome\Application\chrome.exe --user-data-dir="C:/yaas" --disable-web-security and then FIRST LOG ON BAIDU successfully!!!! */ </script> <script> /* Jerry 2017-02-05 5:54PM 這個警告的意思是說:請求的資源可能會被(擴充套件/或其他什麼機制)遮蔽掉。 之所以會出現這個警告,是因為去獲取該資源的請求其實並(還)沒有真的發生,所以 Header 裡顯示的是偽資訊,直到伺服器真的有響應返回,這裡的 Header 資訊才會被更新為真實的。不過這一切也可能不會發生,因為該請求可能會被遮蔽。比如說 AdBlock 什麼的,當然了不全是瀏覽器擴充套件,具體情況具體分析了。 對了,別忘了用 chrome://net-internals 來幫助你查詢被遮蔽的請求以及可能的原因。 */ var PREFIX = " var START = " //var START = " var POST = {}; var TOTAL = 0; var SORTED = []; function getTotalCount(collection){ var count = 0; for( bar in collection){ if( !collection.hasOwnProperty(bar)) continue; var postList = collection[bar]; count += postList.length; } return count; } function shouldEnd(previousCount) { TOTAL = getTotalCount(POST); console.log("pre: " + previousCount + " total: " + TOTAL); return ( previousCount == TOTAL ); } function main() { var html = getPostByAJAX(START); handleLiChildren(html); var page = 2; while(1){ var prevCount = getTotalCount(POST); var task = START + "?&pn=" + page; var html = getPostByAJAX(task); handleLiChildren(html); page++; /* if( page >=2 ) break;*/ if( shouldEnd(prevCount) ) break; } sort(); generate(); } function handleLiChildren(resultString){ var htmlDom = $(resultString); var liChildren = $("li", htmlDom); $.each( liChildren, function(i, value) { // if( value.className.indexOf("nav_item") != -1 ) if( value.className) return true; if( value.innerText == "我回復的" || value.innerText == "我的精品") return true; var detail = parseDetail(value); insertPost(detail); }); } /* <ul> <li> <cite>2016</cite> <a href="/f?kw=%E5%A4%A7%E9%82%91" >尿素氮</a> </li> <li> <cite>2015</cite> <a href="/f?kw=%E5%A4%A7%E9%82%91" >尿素氮2</a> </li> </ul> */ function getpostSource(post) { var source = "<li><cite>"; source += post.date + "/<cite>"; source += '<a href="' + post.url + '">' + post.postTitle + "</a></li>"; return source; } function getBarPostsSource(barName, posts) { var source = '<h1>' + barName + ': ' + posts.length + '個</h1>'; source += "<ul>"; for( var i = 0; i < posts.length; i++){ var post = posts[i]; source += getpostSource(post); } source += "</ul>"; return source; } function sortNumber(a,b){ return b.size - a.size; } function sort() { for( barName in POST) { if( !POST.hasOwnProperty(barName)) continue; var post = { name: barName, size: POST[barName].length }; SORTED.push(post); } SORTED.sort(sortNumber); } function generate(){ var div = document.getElementById("container"); var source = "總共帖子: " + TOTAL + "個"; for( var i = 0; i < SORTED.length; i++){ var posts = POST[SORTED[i].name]; source += getBarPostsSource(SORTED[i].name, posts); } div.innerHTML = source; } $(function(){ main(); }); function getPostByAJAX(requestURL){ var html = $.ajax({ url: requestURL, xhrFields: { // The 'xhrFields' property sets additional fields on the XMLHttpRequest. // This can be used to set the 'withCredentials' property. // Set the value to 'true' if you'd like to pass cookies to the server. // If this is enabled, your server must respond with the header // 'Access-Control-Allow-Credentials: true'. withCredentials: true }, async: false}).responseText; debugger; return html; } /* function getPostByAJAX(requestURL){ var settings = { type: "GET", crossOrigin: true, url:requestURL, error: function(XHR,textStatus,errorThrown) { alert ("XHR="+XHR+"\ntextStatus="+textStatus+"\nerrorThrown=" + errorThrown); }, success: function(data,textStatus) { debugger; }, headers: { "Access-Control-Allow-Origin":" "Access-Control-Allow-Headers":"X-Requested-With" } }; $.ajax(settings); } */ /* function getPostByAJAX(requestURL){ var html = $.ajax({ url: requestURL, dataType:"jsonp", xhrFields: { // The 'xhrFields' property sets additional fields on the XMLHttpRequest. // This can be used to set the 'withCredentials' property. // Set the value to 'true' if you'd like to pass cookies to the server. // If this is enabled, your server must respond with the header // 'Access-Control-Allow-Credentials: true'. withCredentials: true }, async: false}).responseText; return html; } */ function insertPost(postDetail){ if( !POST[postDetail.barName]){ POST[postDetail.barName] = []; } POST[postDetail.barName].push(postDetail); } function parseDetail(liNode) { var cite = $("cite", liNode); var date = cite[0].innerHTML; // value1 var tds = $("td", liNode); var a1 = $("a", tds[0]); var barName = a1[0].innerHTML; // value2 var a2 = $("a", tds[1]); var postTitle = a2[0].innerHTML; // value3 var url = PREFIX + a2.attr("href"); return { date: date, barName: barName, postTitle: postTitle, url: url } } function getTestData(){ return '<!DOCTYPE html><html><body><div class="wrap1"><div class="wrap2"><div ' + ' id="main_wrapper" class="main_wrapper"><div id="main_back_img"><div ' + ' id="main_back_bottom"><div id="container" class="ibody clearfix"><div><div ' + ' id="content"><div class="simple_block_container"><ul><li><cite>2-16</cite>' + '<div class="wrap_container"><table><tr><td class="nowrap">在<a style="" ' + ' href="/f?kw=%E5%A4%A7%E9%82%91" target="_blank">ANDROID吧</a> 發貼</td><td class="wrap">' + '<a href="/p/4356641476?pid=84106363194&cid=0#841063631" class="thread_title" target="_blank">硬碟</a></td>' + '</tr></table></div><div class="clear"></div></li>' + '<li></li><li></li></ul></div></div></div></div></div></div></div></div></body></html>'; } </script> </html>
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/24475491/viewspace-2674145/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Python爬蟲實戰(2):百度貼吧帖子Python爬蟲
- 「用愛發電」的百度貼吧遊戲吧主遊戲
- 百度貼吧怎麼儲存看過的影片?百度貼吧儲存影片的方法
- 解釋--貼吧微博帖子IP地址及發帖人資訊如何查到!
- 百度貼吧怎麼儲存看過的視訊?百度貼吧儲存視訊的方法
- 百度貼吧事件後,我們聽聽百度貼吧負責人是怎麼回應的事件
- 查發貼人IP詳細資訊!怎麼透過帖子找到發貼人個人詳細地址?
- 基於百度翻譯API開發屬於自己的翻譯工具API
- 如何用node開發自己的cli工具
- 通過oracle觸發器記錄修改某表的使用者和ip地址Oracle觸發器
- 開發自己的工具庫(一):專案搭建
- 開發世界,我來了,現出你的夢魘吧
- kill某個使用者的所有程式
- Oracle統計某個使用者下所有表的各自行數Oracle
- 百度貼吧負責人首次回應貼吧事件:我們在監管上出現了判斷錯誤事件
- 僅供自己使用的javascipt輔助開發工具Java
- 燃燒吧!我的併發之魂–synchronizedsynchronized
- 燃燒吧!我的併發之魂--synchronizedsynchronized
- 網路爬蟲——爬百度貼吧爬蟲
- 使用者行為分析的工具開發
- 利用觸發器監控對某個表操作的使用者資訊觸發器
- 說說我們的用的Scrum敏捷開發工具Scrum敏捷
- Python 開發命令列工具Python命令列
- 5個不容錯過的高效開發工具
- 五個不容錯過的安全開發工具
- 基於命令列的WINCE驅動開發工具命令列
- 酷!一鍵構建我自己的PHP框架的開發環境PHP框架開發環境
- 自己開發的一個SAP CRM訂單統計工具
- 列印出ckpt裡的所有變數和值變數
- 小程式開發,那些我們跳過的坑
- Oracle中用sql查詢獲取資料庫的所有觸發器,所有儲存過程,所有檢視,所有表...OracleSQL資料庫觸發器儲存過程
- 用go設計開發一個自己的輕量級登入庫/框架吧Go框架
- 批量的遷移一個資料庫上某使用者所有表的同義詞資料庫
- 新浪微博與百度貼吧移動社交功能的競品分析
- 架構調整、吧主之爭...百度貼吧的那些起落沉浮架構
- .NET開發不可錯過的25款高效工具
- 有沒有人見過這樣的開發工具?
- java開發——我的開發環境薦Java開發環境