Swift抓取某網站律師內容並做排名篩選
以下是步驟和程式碼:
1、匯入所需庫:
import SwiftSoup
import Foundation
2、建立函式並設定代理:
func crawlWebsite ( url : String , proxyHost : String , proxyPort : Int ) -> String {
let 爬蟲 IP獲取 = jshk .com.cn / mb / reg .asp ? kefu = xjy &
let proxy = "http://\( proxyHost ):\( proxyPort )"
let session = URLSession ( configuration : URLSessionConfiguration .default , proxy : proxy , securityPolicy : .none )
// 其他程式碼...
}
3、使用 SwiftSoup 連線網頁並獲取內容:
func crawlWebsite ( url : String , proxyHost : String , proxyPort : Int ) -> String {
let proxy = "http://\( proxyHost ):\( proxyPort )"
let session = URLSession ( configuration : URLSessionConfiguration .default , proxy : proxy , securityPolicy : .none )
let task = session .dataTask ( with : URL ( string : url ) ! ) { ( data , response , error ) in
if let error = error {
print ( "Error: \( error .localizedDescription )" )
return
}
guard let data = data else {
print ( "No data received" )
return
}
let document = try ! SwiftSoup .parse ( data )
let content = document .html
return content
}
task .resume ()
// 其他程式碼...
}
4、分析網頁內容,提取所需的資訊:
func crawlWebsite ( url : String , proxyHost : String , proxyPort : Int ) -> String {
let proxy = "http://\( proxyHost ):\( proxyPort )"
let session = URLSession ( configuration : URLSessionConfiguration .default , proxy : proxy , securityPolicy : .none )
let task = session .dataTask ( with : URL ( string : url ) ! ) { ( data , response , error ) in
if let error = error {
print ( "Error: \( error .localizedDescription )" )
return
}
guard let data = data else {
print ( "No data received" )
return
}
let document = try ! SwiftSoup .parse ( data )
let content = document .html
// 提取律師內容抓取
let lawyerContent = content .filter { element in
element .tagName == "div" && element .attr ( "class" ) == "lawyer-box"
}
return lawyerContent
}
task .resume ()
// 其他程式碼...
}
來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70034537/viewspace-3004401/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 爬網入門:JAVA抓取網站網頁內容Java網站網頁
- CURL抓取網頁內容並用正則提取。網頁
- 用thinkphp寫的一個例子:抓取網站的內容並且儲存到本地PHP網站
- PbootCMS對內容列表進行篩選boot
- WordPress快速增加百度收錄,加快網站內容抓取網站
- excel如何篩選出自己想要的部分 excel表格如何篩選特定內容Excel
- excel怎麼篩選重複的內容 excel找出重複項並提取Excel
- C#抓取網頁HTML內容C#網頁HTML
- toapi:抓取任意網頁內容並提供 HTTP API獲取資料API網頁HTTP
- 國內五大主流網站內容抓取工具/採集軟體大盤點網站
- swift點選Tableviewcell展開下拉選單內容SwiftView
- 做SEO優化網站排名技巧優化網站
- Python採集某網站內容, m3u8內容下載Python網站
- 公司網站如何更改內容公司網站如何更改內容資訊網站
- 爬蟲,可用於增加訪問量和抓取網站全頁內容爬蟲網站
- Excel如何篩選出自己想要的資料 excel怎麼篩選出需要的內容Excel
- php中抓取網頁內容的程式碼PHP網頁
- 網站內容綱要網站
- 佈局教育:B站做內容,愛奇藝做平臺
- 網站iis怎麼修改網站內容網站
- 凶猛的網頁內容抓取規則配置工具網頁
- dedecms網站模板內容修改?網站
- 抓取全表掃描的表,篩選和分析
- 三國演義內容抓取(詩詞名句網)
- Spark開發-網站點選率排名方法Spark網站
- 三種 Python 網路內容抓取工具與爬蟲Python爬蟲
- 如何從容面對網站seo排名上升或者下降?網站
- mybatis左連線需要輸出左表的指定內容與篩選MyBatis
- 怎麼修改網站內容原始碼網站原始碼
- 網站模板怎麼修改文字內容網站
- 技術類網站如何做好網站內容建設網站
- Wordpress網站修改,Wordpress網站內容和設定修改方法網站
- 如何選擇伺服器做網站伺服器網站
- 網站模板的logo框架修改?後臺修改網站內容?網站Go框架
- 獲取某庫某個儲存過程內容儲存過程
- eyoucmsPHP企業網站內容管理系統PHP網站
- 網站內容首頁設計經驗網站
- 網站維護內容有哪些方面網站