《機器學習與資料科學(基於R的統計學習方法)》——2.7 使用檔案連線
本節書摘來非同步社群《機器學習與資料科學(基於R的統計學習方法)》一書中的第2章,第2.7節,作者:【美】Daniel D. Gutierrez(古鐵雷斯),更多章節內容可以訪問雲棲社群“非同步社群”公眾號檢視。
2.7 使用檔案連線
另一種從資料來源中讀取資訊的方式是通過檔案連線。利用連線,你可以讀入CSV檔案,就像我們在前面看到的那樣。不同的是,你也可以從文字檔案中讀取資料行。在資料不太規整的情況下,從文字檔案中按行讀取資料是有意義的。為此,R有一個有用的函式readLines(),可以和檔案連線一同使用。在我們檢視readLines()的例子之前,首先來看看檔案連線是如何工作的。考慮下面的示例程式碼:
> con <- file("./data/SFParkingMeters.csv", "r")
> SFParkingMeters <- read.csv(con)
> close(con)
> head(SFParkingMeters)```
前面的例子首先使用file()函式來建立CSV檔案與命名為con的物件的連線。然後,我們呼叫read.csv()函式,使用連線物件作為引數,以讀取檔案的內容。最後,完成後關閉連線是很好的習慣。跟前面的一樣,資料框SFParkingMeters包含了檔案的內容。
現在讓我們回到readLines()函式,然後做一些完全不一樣的事情。這一次,資料來源將會是一個網頁,所以我們會使用url()函式來提供網頁的地址。遵循和之前一樣的步驟,但設定引數n=20,表示只讀取網頁的前20行(如果一次只想讀取1行,取n=1)。
con <- url(“http://radicaldatascience.wordpress.com/”, “r”)
RDS <- readLines(con, n=20)
close(con)
head(RDS)`
在上文中,使用head(),展示了從我的部落格上讀取的HTML文字。
[1] "<!DOCTYPE html>" "<!--[if IE 7]>"
[3] "<html id="ie7" lang="en">" "<![endif]-->"
[5] "<!--[if IE 8]>" "<html id="ie8" lang="en">"```
使用readLines()的一個很重要的方面是:資料行儲存在特徵向量而不是資料框中。你可以使用class()函式來檢視:
class(RDS)
[1] “character”`
將檔案中的文字行儲存在向量中意味著你必須寫R程式碼來處理資料,以解釋資料的含義。舉個例子,如果資料行中包含Twitter社交媒體內容,那麼你可能希望開發一個演算法來執行推文中的文字傾向性分析。
R中有很多其他函式涉及連線。要檢視完整的列表,使用如下命令:
相關文章
- 資料科學、資料工程學習路線資料科學
- 基於技能的改善資料科學實踐的方法資料科學
- 基於R語言的跨平臺大資料機器學習與資料分析系統R語言大資料機器學習
- (資料科學學習手札88)基於geopandas的空間資料分析——空間計算篇(下)資料科學
- (資料科學學習手札84)基於geopandas的空間資料分析——空間計算篇(上)資料科學
- 資料科學系統學習 機器學習演算法 # 西瓜書學習記錄 [12] 整合學習實踐資料科學機器學習演算法
- 檔案包含-基於Pikachu的學習
- 大資料學習方法,學大資料需要的基礎和路線大資料
- 人的資料科學與機器資料科學資料科學
- (資料科學學習手札83)基於geopandas的空間資料分析——geoplot篇(下)資料科學
- 自學資料科學與機器學習,19個數學和統計學公開課推薦資料科學機器學習
- 系統學習機器學習之半引數方法(二)--基於密度機器學習
- (資料科學學習手札148)geopandas直接支援gdb檔案寫出與追加資料科學
- 機器學習工程師與資料科學家的大斗法機器學習工程師資料科學
- TikTok機器學習與資料科學家的面試題 - Reddit機器學習資料科學面試題
- (資料科學學習手札59)從抓取資料到生成shp檔案並展示資料科學
- 掌握資料科學和機器學習數學基礎必備的7本書資料科學機器學習
- (資料科學學習手札63)利用pandas讀寫HDF5檔案資料科學
- 五個給機器學習和資料科學入門者的學習建議機器學習資料科學
- 資料科學、機器學習和AI的區別資料科學機器學習AI
- 《機器學習導論》和《統計機器學習》學習資料:張志華教授機器學習
- 構建你的資料科學作品集:機器學習專案資料科學機器學習
- 機器學習和資料科學領域,推薦幾本學習書單機器學習資料科學
- 《精通資料科學:從線性迴歸到深度學習》資料科學深度學習
- 資料科學的原理與技巧 一、資料科學的生命週期資料科學
- 資料科學和機器學習面試問題資料科學機器學習面試
- 基於 GitHub 的敏捷學習方法之道與術Github敏捷
- 16個用於資料科學和機器學習的頂級平臺資料科學機器學習
- 基於檔案的學生資訊管理系統
- 資料分析與資料探勘 - 04科學計算
- 學習連連看 連線線之謎+道具的使用
- (資料科學學習手札150)基於dask對geopandas進行並行加速資料科學並行
- Java可以用於機器學習和資料科學嗎? - kdnuggetsJava機器學習資料科學
- 資料科學家與機器學習工程師的區別? - kdnuggets資料科學機器學習工程師
- 好程式設計師大資料學習路線分享分散式檔案系統HDFS程式設計師大資料分散式
- 【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [6] 樸素貝葉斯實踐資料科學機器學習演算法
- (資料科學學習手札132)Python+Fabric實現遠端伺服器連線資料科學Python伺服器
- 【R資料科學讀書筆記】R語言中的管道操作資料科學筆記R語言