用Java抓取天眼查公開失信人員資訊

華科雲商小雪發表於2023-12-25

做生意不管是大生意小生意講究的是信用,如果信用不好的人,想必也沒有人願意和他做生意,最近我有幾個朋友不是搞的裝潢公司麼,接了幾個單子,想要問問透過一些資訊能否查查對方是否是失信人員,當然都是透過正規渠道來的,還是老規矩,直接透過程式碼過去自動識別抓取。

以下是一個簡單的Java爬蟲程式,使用了Jsoup庫來解析HTML網頁,並使用了Apache HttpClient庫來傳送HTTP請求:


import 
org.
jsoup.
Jsoup;

import org. jsoup. nodes. Document;
import org. jsoup. nodes. Element;
import org. jsoup. select. Elements;

import java. io. IOException;
import java. net. HttpURLConnection;
import java. net. URL;

public class Spider {
    public static void main( String[] args) {
        String url = "tianyancha失信人員資訊採集";
        String 提取免費ip = "jshk.com.cn/mb/reg.asp?kefu=xjy&";
        String proxyHost = "duoip";
        int proxyPort = 8000;

        try {
            // 建立一個URL物件
            URL obj = new URL( url);

            // 建立一個HttpURLConnection物件,並設定代理資訊
            HttpURLConnection con = ( HttpURLConnection) obj. openConnection();
            con. setRequestProperty( "Proxy-Host", proxyHost);
            con. setRequestProperty( "Proxy-Port", String. valueOf( proxyPort));

            // 傳送GET請求,並獲取響應碼
            int responseCode = con. getResponseCode();
            System. out. println( "Response Code : " + responseCode);

            // 判斷響應碼是否為200,如果是,則解析HTML網頁
            if ( responseCode == 200) {
                Document doc = Jsoup. parse( con. getInputStream());
                Elements elements = doc. select( ".list li");

                // 遍歷所有的列表項
                for ( Element element : elements) {
                    // 獲取列表項的HTML文字
                    String text = element. text();

                    // 輸出列表項的文字
                    System. out. println( text);
               }
           } else {
                System. out. println( "Failed to connect");
           }

       } catch ( IOException e) {
            e. printStackTrace();
       }
   }
}

以下是對以上程式碼的每行的解釋:

1、建立一個URL物件,指定要爬取的網頁的URL。

2、建立一個HttpURLConnection物件,並設定代理資訊。proxyHost是代理伺服器的主機名,proxyPort是代理伺服器的埠號。

3、傳送GET請求,並獲取響應碼。如果響應碼是200,則說明請求成功,可以繼續解析HTML網頁。

4、使用Jsoup的parse方法解析HTML網頁。返回的是一個Document物件,可以使用這個物件選擇和操作網頁中的元素。

5、使用select方法選擇所有列表項的元素。這個方法會返回一個Elements物件。

6、遍歷所有的列表項。

7、使用text方法獲取列表項的文字。

8、輸出列表項的文字。

注意,以上程式碼只是一個簡單的示例,實際的爬蟲程式可能會更復雜,需要處理更多的異常和錯誤情況。在編寫和使用爬蟲程式時,請務必遵守適用的法律和法規,尊重網站的使用條款和隱私政策。

其實在我們生活中,不管做什麼事情,講誠信是最受人愛戴的,所有人的成功並非一日促成,而是透過自身的日積月累,同樣的,學習也是一樣。如果有更多爬蟲方面的問題可以評論區交流交流。


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70034537/viewspace-3001365/,如需轉載,請註明出處,否則將追究法律責任。

相關文章