rvest爬取雞蛋期貨資料(遇到的問題)
1.之前用rvest爬取網頁表格,很順利,但這次用該語句時,因為電腦編碼問題,一直提示
Error in doc_parse_raw(x, encoding = encoding, base_url = base_url, as_html = as_html, :
input conversion failed due to input error, bytes 0x86 0x31 0x31 0x30 [6003]
別的電腦可以出結果,我的電腦因為今天520,打算和女朋友統一戰線,有點小脾氣 ,那我只好想想其他方法。以下是之前所用程式碼。
library(rvest)
tdist<-read_html("http://vip.stock.finance.sina.com.cn/q/view/vFutures_History.php?page=28&breed=JD0&start=2010-01-01&end=2018-05-20&jys=dce&pz=JD&hy=JD0&type=inner&name=%E5%A4%A7%E8%B1%861109", encoding = 'GB2312')
t1<-tdist %>%html_table(fill = TRUE)
write.csv(t1,"D:/qaac.csv")
tdist<-read_html("http://vip.stock.finance.sina.com.cn/q/view/vFutures_History.php?page=28&breed=JD0&start=2010-01-01&end=2018-05-20&jys=dce&pz=JD&hy=JD0&type=inner&name=%E5%A4%A7%E8%B1%861109", encoding = 'GB2312')
t1<-tdist %>%html_table(fill = TRUE)
write.csv(t1,"D:/qaac.csv")
2.想想有啥新方法,可以繞過雷區,畢竟小脾氣對直男來說是無解的。以下是新方法
library(rvest)
f <- tempfile()#建立臨時檔案
download.file("http://vip.stock.finance.sina.com.cn/q/view/vFutures_History.php?page=28&breed=JD0&start=2010-01-01&end=2018-05-20&jys=dce&pz=JD&hy=JD0&type=inner&name=%E5%A4%A7%E8%B1%861109", f)
fchars <- readChar(f, file.info(f)$size)
stringi::stri_enc_detect(fchars)
# 發現文件是 GB18030 編碼,上面那個方法就是這個編碼問題
futf8 <- stringi::stri_encode(fchars, "GB18030", "UTF8")
f <- tempfile()#建立臨時檔案
download.file("http://vip.stock.finance.sina.com.cn/q/view/vFutures_History.php?page=28&breed=JD0&start=2010-01-01&end=2018-05-20&jys=dce&pz=JD&hy=JD0&type=inner&name=%E5%A4%A7%E8%B1%861109", f)
fchars <- readChar(f, file.info(f)$size)
stringi::stri_enc_detect(fchars)
# 發現文件是 GB18030 編碼,上面那個方法就是這個編碼問題
futf8 <- stringi::stri_encode(fchars, "GB18030", "UTF8")
fhtml <- rvest::html(futf8)
#以上全為重新為網頁編碼的過程,此法可通用
t1<-fhtml %>%html_table(fill = TRUE)
t1<-t1[[4]]#定位表格位置
write.csv(t1,"D:/0qaac.csv")
哪位大神如果知道第一種方法該如何處理,歡迎留言,感激涕零。相關文章
- JAVA 雞蛋問題Java
- 【進階5-3期】深入探究 Function & Object 雞蛋問題FunctionObject
- 爬蟲抓取網路資料時經常遇到的六種問題爬蟲
- 爬蟲過程中遇到的問題爬蟲
- 資料標準化遇到的問題
- 大資料面試可能遇到的問題大資料面試
- 使用資料泵遷移遇到的問題
- 資料升級到5.1所遇到的問題
- DB2匯入資料遇到的問題DB2
- 爬取高考資料
- 爬取微博圖片資料存到Mysql中遇到的各種坑mysql儲存圖片爬取微博圖片MySql
- JDBC用ResultSet訪問大量資料時會遇到的問題JDBC
- google經典演算法面試題-雞蛋問題Go演算法面試題
- 模型資料作渲染優化時遇到的問題模型優化
- ORA-39082 匯入資料遇到的問題
- 網友遇到的問題---資料被莫名的刪除
- 專案中遇到的RediS快取問題及面試問題總結Redis快取面試
- 歷史股票資料的爬取
- 怎樣高效的爬取資料?
- 關於海量資料的獲取問題
- 用sessionBean讀取文字資料的問題SessionBean
- 海量資料的查詢快取問題快取
- 如何利用ip住宅代理解決python爬蟲遇到反爬措施的問題?Python爬蟲
- MATLAB讀取圖片遇到長寬的問題Matlab
- 資料庫升級到mysql5.6遇到的資料表ENGINE問題資料庫MySql
- 工作遇到的問題
- 爬蟲爬取資料如何繞開限制?爬蟲
- 如何提升scrapy爬取資料的效率
- ASH buffers 資料取樣到AWR的問題
- 求救:關於讀取excel資料的問題Excel
- 監控資料庫連線遇到的一個小問題資料庫
- kafka 測試遇到掉資料的問題 nmred/kafka-PHPKafkaPHP
- 從資料庫裡取值時遇到的換行問題(轉)資料庫
- Puppeteer爬取網頁資料網頁
- 鬥魚彈幕資料爬取
- Selenium爬蟲遇到超時TimeOut問題的解決方法爬蟲
- 爬取LeetCode題目——如何傳送GraphQL Query獲取資料LeetCode
- Golang爬蟲,Go&&正則爬取資料,槓桿的Golang爬蟲