如何匯入rvest包

金木大大大發表於2023-11-08

```R

# 匯入必要的包

library(rvest)


# 設定URL

url <- "


# 設定請求頭部,使用代理

headers <- list Proxy = paste0(" proxy_host, ":", proxy_port)


# 使用rvest的read_html函式傳送請求並獲取網頁原始碼

webpage <- read_html(url, encoding = "UTF-8", headers = headers)


# 使用html_nodes函式選取需要爬取的元素

elements <- html_nodes(webpage, ".sleft .sleft-list li")


# 使用html_text函式提取元素的文字

texts <- html_text(elements)


# 列印提取的文字

texts

```


在程式碼中,我們首先匯入了rvest包,然後設定了代理資訊proxy_host和proxy_port。接下來,我們設定了要爬取的網頁URL。


然後,我們設定了請求頭部,使用代理。這裡,我們使用了paste0函式將代理URL拼接成了請求頭部。


接著,我們使用rvest的read_html函式傳送請求並獲取網頁原始碼。在這個過程中,我們指定了編碼為"UTF-8",並設定了請求頭部。


然後,我們使用html_nodes函式選取了需要爬取的元素。在這個例子中,我們選取了網頁中class為"sleft .sleft-list li"的元素。


最後,我們使用html_text函式提取了元素的文字,並將其儲存在變數texts中。最後,我們列印出了提取的文字。


注意:在實際使用中,可能需要根據具體的網頁結構和內容來調整選取元素的程式碼。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70032566/viewspace-2993421/,如需轉載,請註明出處,否則將追究法律責任。

相關文章