rvest爬取雞蛋期貨資料(遇到的問題)
1.之前用rvest爬取網頁表格,很順利,但這次用該語句時,因為電腦編碼問題,一直提示
Error in doc_parse_raw(x, encoding = encoding, base_url = base_url, as_html = as_html, :
input conversion failed due to input error, bytes 0x86 0x31 0x31 0x30 [6003]
別的電腦可以出結果,我的電腦因為今天520,打算和女朋友統一戰線,有點小脾氣 ,那我只好想想其他方法。以下是之前所用程式碼。
library(rvest)
tdist<-read_html("http://vip.stock.finance.sina.com.cn/q/view/vFutures_History.php?page=28&breed=JD0&start=2010-01-01&end=2018-05-20&jys=dce&pz=JD&hy=JD0&type=inner&name=%E5%A4%A7%E8%B1%861109", encoding = 'GB2312')
t1<-tdist %>%html_table(fill = TRUE)
write.csv(t1,"D:/qaac.csv")
tdist<-read_html("http://vip.stock.finance.sina.com.cn/q/view/vFutures_History.php?page=28&breed=JD0&start=2010-01-01&end=2018-05-20&jys=dce&pz=JD&hy=JD0&type=inner&name=%E5%A4%A7%E8%B1%861109", encoding = 'GB2312')
t1<-tdist %>%html_table(fill = TRUE)
write.csv(t1,"D:/qaac.csv")
2.想想有啥新方法,可以繞過雷區,畢竟小脾氣對直男來說是無解的。以下是新方法
library(rvest)
f <- tempfile()#建立臨時檔案
download.file("http://vip.stock.finance.sina.com.cn/q/view/vFutures_History.php?page=28&breed=JD0&start=2010-01-01&end=2018-05-20&jys=dce&pz=JD&hy=JD0&type=inner&name=%E5%A4%A7%E8%B1%861109", f)
fchars <- readChar(f, file.info(f)$size)
stringi::stri_enc_detect(fchars)
# 發現文件是 GB18030 編碼,上面那個方法就是這個編碼問題
futf8 <- stringi::stri_encode(fchars, "GB18030", "UTF8")
f <- tempfile()#建立臨時檔案
download.file("http://vip.stock.finance.sina.com.cn/q/view/vFutures_History.php?page=28&breed=JD0&start=2010-01-01&end=2018-05-20&jys=dce&pz=JD&hy=JD0&type=inner&name=%E5%A4%A7%E8%B1%861109", f)
fchars <- readChar(f, file.info(f)$size)
stringi::stri_enc_detect(fchars)
# 發現文件是 GB18030 編碼,上面那個方法就是這個編碼問題
futf8 <- stringi::stri_encode(fchars, "GB18030", "UTF8")
fhtml <- rvest::html(futf8)
#以上全為重新為網頁編碼的過程,此法可通用
t1<-fhtml %>%html_table(fill = TRUE)
t1<-t1[[4]]#定位表格位置
write.csv(t1,"D:/0qaac.csv")
哪位大神如果知道第一種方法該如何處理,歡迎留言,感激涕零。相關文章
- 雞蛋期貨
- JAVA 雞蛋問題Java
- 【進階5-3期】深入探究 Function & Object 雞蛋問題FunctionObject
- 先有雞or先有蛋?淺談資料拆分與特徵縮放的順序問題特徵
- google經典演算法面試題-雞蛋問題Go演算法面試題
- Java謎題6:雞與蛋Java
- 爬蟲抓取網路資料時經常遇到的六種問題爬蟲
- 爬蟲過程中遇到的問題爬蟲
- 資料標準化遇到的問題
- 動態規劃法(六)雞蛋掉落問題(一)(egg dropping problem)動態規劃
- Java謎題6:雞與蛋-解決方案Java
- SpringMVC的資料獲取問題SpringMVC
- 房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取Python爬蟲
- 一篇文章帶你搞定經典面試題之扔雞蛋問題面試題
- JDBC用ResultSet訪問大量資料時會遇到的問題JDBC
- MATLAB讀取圖片遇到長寬的問題Matlab
- 問題 C: 百雞問題
- 百雞問題
- Selenium爬蟲遇到超時TimeOut問題的解決方法爬蟲
- 掃碼領雞蛋聽靠譜的
- 如何利用ip住宅代理解決python爬蟲遇到反爬措施的問題?Python爬蟲
- 菜譜-韭黃炒雞蛋
- 微博-指定話題當日資料爬取
- 爬取LeetCode題目——如何傳送GraphQL Query獲取資料LeetCode
- 專案中遇到的RediS快取問題及面試問題總結Redis快取面試
- 爬取微博圖片資料存到Mysql中遇到的各種坑mysql儲存圖片爬取微博圖片MySql
- 歷史股票資料的爬取
- 怎樣高效的爬取資料?
- linux遇到的問題Linux
- Vagrant 遇到的問題
- Homestead 遇到的問題
- sudo 遇到的問題
- JackJson遇到的問題JSON
- mysql 遇到的問題MySql
- WangEditor遇到的問題
- python爬蟲爬取網頁中文亂碼問題的解決Python爬蟲網頁
- kafka 測試遇到掉資料的問題 nmred/kafka-PHPKafkaPHP
- 監控資料庫連線遇到的一個小問題資料庫