如何使用`open-uri`模組

金木大大大發表於2023-11-13

首先,我們需要使用`open-uri`模組來開啟網頁,並使用`Nokogiri`模組來解析網頁內容。然後,我們可以使用`Nokogiri`的`css`方法來選擇我們想要的元素,例如標題,作者,內容等。最後,我們可以使用`open-uri`模組來下載檔案。


以下是一個簡單的例子:


```ruby

require 'open-uri'

require 'nokogiri'


proxy_host = 'jshk.com.cn'



# 使用open-uri開啟網頁

html = open(" proxy_opts: { host: proxy_host, port: proxy_port })


# 使用Nokogiri解析網頁內容

doc = Nokogiri::HTML(html)


# 選擇我們想要的元素,例如標題,作者,內容等

title = doc.css('div.h2').text

author = doc.css('div.p1').text

content = doc.css('div.content').text


# 輸出結果

puts "Title: #{title}"

puts "Author: #{author}"

puts "Content: #{content}"

```


注意:在使用代理時,需要確保代理伺服器的穩定性.此外,爬蟲程式的編寫需要考慮到效率問題,避免對目標網站的伺服器造成過大的負擔。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70032566/viewspace-2994964/,如需轉載,請註明出處,否則將追究法律責任。

相關文章