Java實現利用搜尋引擎收集網址的程式
Java實現利用搜尋引擎收集網址的程式[@more@] 我這裡講的不是怎麼使用搜尋引擎,而是怎麼讓程式利用搜尋引擎來蒐集網址,這有什麼用?很有用!網上動輒有人叫賣網址資料庫,如釋出軟體網址、郵件地址、論壇網址、行業網址,這些網址是怎麼來的呢?不可能是人手工收集而來的,都是讓程式利用搜尋引擎取到的,如果您需要某類網址資訊資料,就跟我來一起研究一下,非常簡單。
本文采用Java語言寫成,以google和百度搜尋引擎為物件。
我們要利用google、百度搜尋引擎的搜尋規則中的兩條,關鍵字搜尋和inurl搜尋。什麼是inurl搜尋,就是你所要搜尋的網址中本身帶有的關鍵字,比如 ,這個網址就含有post.asp這樣的關鍵字,在搜尋引擎中填寫規則是 inurl:post.asp,這是收集網址的關鍵,因為很多網址本身會帶有特定的資訊,比如軟體釋出的網頁網址資訊中多含有 publish、submit、tuijian這樣的資訊,如這樣的網址多是釋出資訊的網頁,在結合網頁中本身可能含有的關鍵字,就可以用搜尋引擎搜尋出結果,然後我們利用程式將結果取回,對HTML頁面進行分析,去除沒有用的資訊,將有用的網址資訊寫入檔案或者資料庫,就可以給其它應用程式或者人來使用了。
第一步,用程式將搜尋結果取回,先以百度為例,比如我們要搜尋軟體釋出的網頁,關鍵字採用 “軟體釋出 版本 inurl:publish.asp",先登入百度看看,將關鍵字寫入,然後提交,在位址列就會看到 %C8%ED%BC%FE%B7%A2%B2%BC+%C8%ED%BC%FE%B0%E6%B1%BE+inurl%3Apublish.asp&sr=&z=&cl=3&f=8&wd=%C8%ED%BC%FE%B7%A2%B2%BC+%B0%E6%B1%BE+inurl%3Apublish.asp&ct=0 ,中文關鍵字全都變成編碼了,沒有關係,我們在程式中直接用中文也是可以的,其中多個關鍵字用+號相連,去掉一些沒有用的資訊,我們可以把地址最佳化成 wd=軟體釋出+版本+inurl%3Apublish%2Easp&pn=0&cl=0,其中rn表示一頁顯示多少個結果,wd=表示你要搜尋的關鍵字,pn表示從第幾條開始顯示,這個pn將是我們程式迴圈取結果的變數,每20條迴圈一次。我們用Java寫的程式來模擬這個搜尋的過程,用到的關鍵類為 java.net.HttpURLConnection,java.net.URL,先寫一個提交搜尋的class,關鍵程式碼如下:
class Search
{
public URL url;
public HttpURLConnection http;
public java.io.InputStream urlstream;
......
for(int i=0;i++;i <100)
{
......
try {
url = new URL(" wd=軟體釋出+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"&cl=0");
}catch(Exception ef){};
try {
http = (HttpURLConnection) url.openConnection();
http.connect();
urlstream = http.getInputStream();
}catch(Exception ef){};
java.io.BufferedReader l_reader = new java.io.
BufferedReader(new java.io.InputStreamReader(urlstream));
try {
while ((currentLine = l_reader.readLine()) != null) {
totalstring += currentLine;
}
} catch (IOException ex3) {}
....
//本次搜尋的結果已經放到totalstring中了,是一些HTML程式碼,需要下一步進行分析了。
}
再以google為例,稍微有些不同,google對瀏覽器進行了一些檢測,編碼也不同,URL為http: //軟體釋出+版本+inurl:publish.asp&hl=zh-CN&lr= &newwindow=1&start=0&sa=N&ie=UTF-8,其中編碼要用ie=UTF-8,start表示從第幾條記錄顯示,需要注意的是google對瀏覽器還要檢查,如果瀏覽器不符合它的要求,將返回錯誤程式碼,所以在模擬瀏覽器提交中,我們要多加一行程式碼,修改關鍵部分要將http屬性中的User-Agent設定為常用的瀏覽器,比如Mozilla/4.0,程式碼如下:
try {
http = (HttpURLConnection) url.openConnection();
http.setRequestProperty("User-Agent", "Mozilla/4.0");
http.connect();
urlstream = http.getInputStream();
}catch(Exception ef){};
第二步,對取回的HTML編碼進行分析,取出其中的有用網址資訊,並寫入檔案或者資料庫,由於這些搜尋引擎都有網頁快照和相似網頁等網址資訊混雜在HTML中,我們要將這些網址資訊剔除掉,剔除的關鍵就是找出其中的規律,百度搜尋引擎中的網頁快照和其它沒有用的的地址都含有baidu這個關鍵字,而google中含有的無用網址資訊含有關鍵字 google和cache,我們就根據這些關鍵字剔除無用網址資訊。在Java中要對字串進行分析必然要用到 java.util.StringTokenize這個類,用來將字串以特定的分隔符分開,java.util.regex.Pattern和 java.util.regex.Matcher用來匹配字串,關鍵程式碼如下:
class CompareStr
{
public boolean comparestring(String oristring,String tostring)
{
Pattern p=null; //正規表示式
Matcher m=null; //操作的字串
boolean b;
p = Pattern.compile(oristring,Pattern.CASE_INSENSITIVE);
m = p.matcher(tostring);
b = m.find();
return b;
}
}
class AnalyUrl
{
......
StringTokenizer token = new StringTokenizer(totalstring," <> "");
String firstword;
CompareStrcompstr = new CompareStr();
String dsturl = null;
while (token.hasMoreTokens())
{
firstword = token.nextToken();
if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword))
{
if (firstword.length() > 7)
{
dsturl = firstword.substring(6,firstword.length() - 1);
WriteUrl(dsturl); //成功取到URL,記錄到檔案中
}
}
}
}
透過以上程式,我們就可以收集到自己要的網址資訊了,還可以再寫另外一個應用程式,對收集到的網址資訊進一步分析,取出自己需要的資訊,這裡就不再累贅,道理都是一樣的。最後需說明一點,google搜尋引擎搜尋所能返回的結果不能超過1000條,過了1000條,就直接提示“對不起, Google 為所有查詢的結果數都不會超過 1000 個。”,百度搜尋引擎返回的結果不能超過700多條,所以我們要搜尋時儘可能多加關鍵字,將結果範圍縮小。
本文采用Java語言寫成,以google和百度搜尋引擎為物件。
我們要利用google、百度搜尋引擎的搜尋規則中的兩條,關鍵字搜尋和inurl搜尋。什麼是inurl搜尋,就是你所要搜尋的網址中本身帶有的關鍵字,比如 ,這個網址就含有post.asp這樣的關鍵字,在搜尋引擎中填寫規則是 inurl:post.asp,這是收集網址的關鍵,因為很多網址本身會帶有特定的資訊,比如軟體釋出的網頁網址資訊中多含有 publish、submit、tuijian這樣的資訊,如這樣的網址多是釋出資訊的網頁,在結合網頁中本身可能含有的關鍵字,就可以用搜尋引擎搜尋出結果,然後我們利用程式將結果取回,對HTML頁面進行分析,去除沒有用的資訊,將有用的網址資訊寫入檔案或者資料庫,就可以給其它應用程式或者人來使用了。
第一步,用程式將搜尋結果取回,先以百度為例,比如我們要搜尋軟體釋出的網頁,關鍵字採用 “軟體釋出 版本 inurl:publish.asp",先登入百度看看,將關鍵字寫入,然後提交,在位址列就會看到 %C8%ED%BC%FE%B7%A2%B2%BC+%C8%ED%BC%FE%B0%E6%B1%BE+inurl%3Apublish.asp&sr=&z=&cl=3&f=8&wd=%C8%ED%BC%FE%B7%A2%B2%BC+%B0%E6%B1%BE+inurl%3Apublish.asp&ct=0 ,中文關鍵字全都變成編碼了,沒有關係,我們在程式中直接用中文也是可以的,其中多個關鍵字用+號相連,去掉一些沒有用的資訊,我們可以把地址最佳化成 wd=軟體釋出+版本+inurl%3Apublish%2Easp&pn=0&cl=0,其中rn表示一頁顯示多少個結果,wd=表示你要搜尋的關鍵字,pn表示從第幾條開始顯示,這個pn將是我們程式迴圈取結果的變數,每20條迴圈一次。我們用Java寫的程式來模擬這個搜尋的過程,用到的關鍵類為 java.net.HttpURLConnection,java.net.URL,先寫一個提交搜尋的class,關鍵程式碼如下:
class Search
{
public URL url;
public HttpURLConnection http;
public java.io.InputStream urlstream;
......
for(int i=0;i++;i <100)
{
......
try {
url = new URL(" wd=軟體釋出+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"&cl=0");
}catch(Exception ef){};
try {
http = (HttpURLConnection) url.openConnection();
http.connect();
urlstream = http.getInputStream();
}catch(Exception ef){};
java.io.BufferedReader l_reader = new java.io.
BufferedReader(new java.io.InputStreamReader(urlstream));
try {
while ((currentLine = l_reader.readLine()) != null) {
totalstring += currentLine;
}
} catch (IOException ex3) {}
....
//本次搜尋的結果已經放到totalstring中了,是一些HTML程式碼,需要下一步進行分析了。
}
再以google為例,稍微有些不同,google對瀏覽器進行了一些檢測,編碼也不同,URL為http: //軟體釋出+版本+inurl:publish.asp&hl=zh-CN&lr= &newwindow=1&start=0&sa=N&ie=UTF-8,其中編碼要用ie=UTF-8,start表示從第幾條記錄顯示,需要注意的是google對瀏覽器還要檢查,如果瀏覽器不符合它的要求,將返回錯誤程式碼,所以在模擬瀏覽器提交中,我們要多加一行程式碼,修改關鍵部分要將http屬性中的User-Agent設定為常用的瀏覽器,比如Mozilla/4.0,程式碼如下:
try {
http = (HttpURLConnection) url.openConnection();
http.setRequestProperty("User-Agent", "Mozilla/4.0");
http.connect();
urlstream = http.getInputStream();
}catch(Exception ef){};
第二步,對取回的HTML編碼進行分析,取出其中的有用網址資訊,並寫入檔案或者資料庫,由於這些搜尋引擎都有網頁快照和相似網頁等網址資訊混雜在HTML中,我們要將這些網址資訊剔除掉,剔除的關鍵就是找出其中的規律,百度搜尋引擎中的網頁快照和其它沒有用的的地址都含有baidu這個關鍵字,而google中含有的無用網址資訊含有關鍵字 google和cache,我們就根據這些關鍵字剔除無用網址資訊。在Java中要對字串進行分析必然要用到 java.util.StringTokenize這個類,用來將字串以特定的分隔符分開,java.util.regex.Pattern和 java.util.regex.Matcher用來匹配字串,關鍵程式碼如下:
class CompareStr
{
public boolean comparestring(String oristring,String tostring)
{
Pattern p=null; //正規表示式
Matcher m=null; //操作的字串
boolean b;
p = Pattern.compile(oristring,Pattern.CASE_INSENSITIVE);
m = p.matcher(tostring);
b = m.find();
return b;
}
}
class AnalyUrl
{
......
StringTokenizer token = new StringTokenizer(totalstring," <> "");
String firstword;
CompareStrcompstr = new CompareStr();
String dsturl = null;
while (token.hasMoreTokens())
{
firstword = token.nextToken();
if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword))
{
if (firstword.length() > 7)
{
dsturl = firstword.substring(6,firstword.length() - 1);
WriteUrl(dsturl); //成功取到URL,記錄到檔案中
}
}
}
}
透過以上程式,我們就可以收集到自己要的網址資訊了,還可以再寫另外一個應用程式,對收集到的網址資訊進一步分析,取出自己需要的資訊,這裡就不再累贅,道理都是一樣的。最後需說明一點,google搜尋引擎搜尋所能返回的結果不能超過1000條,過了1000條,就直接提示“對不起, Google 為所有查詢的結果數都不會超過 1000 個。”,百度搜尋引擎返回的結果不能超過700多條,所以我們要搜尋時儘可能多加關鍵字,將結果範圍縮小。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10901326/viewspace-965469/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 開源BT磁力搜尋引擎收集
- 網路偵察技術(一)搜尋引擎資訊收集
- 搜尋引擎爬蟲蜘蛛的User-Agent收集爬蟲
- 搜尋引擎程式碼
- 海量資料搜尋---demo展示百度、谷歌搜尋引擎的實現谷歌
- 搜尋引擎-03-搜尋引擎原理
- 以圖搜尋——網際網路影象搜尋引擎的“雞肋”?
- 自己動手實現主題搜尋引擎
- 搜尋引擎必看的入門書籍——《搜尋引擎:資訊檢索實踐》
- Lucene : 基於Java的全文搜尋引擎Java
- 利用AJAX技術提高搜尋引擎排名(轉)
- 直播開發app,實時搜尋、搜尋引擎框APP
- 實現一個自己的搜尋引擎的初始規劃
- 相見恨晚!開源的傻瓜搜尋引擎,幫你快速實現搜尋功能
- 利用Lucene搜尋Java原始碼Java原始碼
- 海量資料搜尋---搜尋引擎
- 搜尋引擎關鍵字智慧提示的一種實現
- 9個基於Java的搜尋引擎框架Java框架
- 一步步實現 Redis 搜尋引擎Redis
- 搜尋引擎:MapReduce實戰----倒排索引索引
- java+lucene中文分詞,搜尋引擎搜詞剖析Java中文分詞
- Shodan:網際網路上最可怕的搜尋引擎
- 【搜尋引擎】 PostgreSQL 10 實時全文檢索和分詞、相似搜尋、模糊匹配實現類似Google搜尋自動提示SQL分詞Go
- 網站搜尋引擎優化問題網站優化
- Nebula 基於 ElasticSearch 的全文搜尋引擎的文字搜尋Elasticsearch
- 利用 TensorFlow 實現排序和搜尋演算法排序演算法
- 利用Elasticsearch實現地理位置、城市搜尋服務Elasticsearch
- 搜尋引擎es-分詞與搜尋分詞
- 用Python實現一個大資料搜尋引擎Python大資料
- 基於 Mysql 實現一個簡易版搜尋引擎MySql
- 用 Python 實現一個大資料搜尋引擎Python大資料
- 幾大搜尋引擎的網站登入入口網站
- ElasticSearch全文搜尋引擎Elasticsearch
- 搜尋引擎語法
- 搜尋引擎命令大全
- 搜尋引擎面試題面試題
- python 寫的搜尋引擎Python
- 基於 Elasticsearch 的站內搜尋引擎實戰Elasticsearch