《R包開發》作者Hadley Wickham訪談問題有獎徵集(圖靈訪談)

劉敏ituring發表於2016-08-24

Hadley Wickham  
RStudio的首席科學家,萊斯大學的助理教授,資深R社群成員,已開發了30多個R包。因在資料處理和視覺化開發工具方面的卓越貢獻,獲得專為統計計算而設立的約翰·錢伯斯獎。

enter image description here

Hadley(哈德利)出生在紐西蘭 · 漢密爾頓的一個從事資料統計的家庭。他的父親布萊恩•韋翰是康奈爾大學動物育種方面的資料統計博士,妹妹獲得了加州大學伯克利分校資料統計的博士學位。

如果資料結構方面存在神童一說的話,Hadley應該算一個。他曾自豪地講述自己的經歷:

"15歲時,我的第一份工作就是開發Microsoft Access資料庫,很有趣。我當時做一些資料庫文件,現在人們仍然在使用我寫的資料庫。”

Hadley第一次接觸R語言是在紐西蘭奧克蘭大學的統計專業課上。他認為R語言是“一門用於理解資料的程式語言。”同SQL和Python一樣,R語言對於資料科學家來說,是最流行的程式語言。

和Hadley一樣,R程式語言也來自紐西蘭。R語言成立於1993年,由奧克蘭大學的統計學家Ross Ihaka和Robert Gentleman一起建立,主要用於資料分析,卻也存在一些怪癖(如索引資料結構的方式、實體記憶體儲存的方式等)。所以,其他開發語言的使用者大都認為R語言很奇怪。使用過Java、VBA和PHP之後,Hadley發現R“與眾不同”。“(許多程式設計師)認為R語言荒謬、笨拙,我不這麼認為,”他說,“我認為R非常有趣。”

到美國的愛荷華州立大學攻讀博士之後,Hadley開始開發R包。用哈德利自己的話說,開發包需要涵蓋“幫助人們解決問題的程式碼,然後必須用文件記錄下這些程式碼,別人才可以理解怎樣使用這些程式碼。”他建立的第一個包,作為類專案的一部分,用於生物資訊學資料的視覺化。雖然這個包從未公開過,這絲毫不影響他喜歡分享的態度。

2005年,他釋出了reshape包,廣受關注,也是R包開發的起點。這個包已經被下載了成千上萬次。reshape的目的是減少聚合和運算元據過程中的“乏味和痛苦”。簡化資料轉化的過程看上去並不是什麼難事兒,但對於資料科學家和統計學家來說,這往往是最耗時的工作。

顯然,Hadley很享受reshape開發包的成功。他認為現有的方法並不完美,所以需要開發出新的包。這並不是吹噓,他有足夠的信心,“我堅信我掌握了正確的開發方法,”他再次強調,“要麼更好,要麼更糟。”

--------------

最新力作《R包開發》,著眼於將讀者從R包的使用者晉升為R包的開發者,展示了R包開發的哲學。書中詳細介紹瞭如何將可重用的R函式、示例資料以及文件一起打包,以便與他人分享程式碼、節省開發時間、組織資料分析,儘可能讓工作自動化。

  • 學習R包最有用的元件,包括使用指南和單元測試
  • 利用devtools自動執行任務
  • 掌握良好編碼風格的技巧,比如如何把函式組織成檔案
  • 使用devtools簡化開發流程
  • 發現提交包到CRAN的最佳途徑

作品選讀:第1章

歡迎大家在評論區提問,最終入選的提問者,將獲得圖靈社群送出的圖靈電子書一本。最具價值性的問題,更有機會獲得《R包開發》紙質版一本,共計2本。

---------------

往期活動回顧:

@程式設計師鄒欣 訪談問題有獎徵集,問題入選的獲獎者有:EINDEX、穿鞋子的貓、烙餅師、Dream(微信)、袁龍飛(微信)、空軍(微信)

再訪《Scratch少兒趣味程式設計》系列圖書作者阿部和廣、倉本大資訪談問題有獎徵集,問題入選的獲獎者:大唐廢貓、DearLinXi、穿鞋子的貓

《我的第一本程式設計書》作者平山尚訪談問題有獎徵集,問題入選的獲獎者有:steveguang、華元、青鳥(微信)

奇虎360資料專家傅志華訪談問題有獎徵集,問題入選的獲獎者有:AlexFeng、xinconan、蘇文波(微信)、Zxd(微信)、xx(微信)

知名著者結城浩,訪談問題有獎徵集,問題入選的獲獎者有:白色風車、叫俺小破(微信)、Gnay Gnim Iel(微信)、友人A(微信)、linux_cma(微信)、唐吉可德(微信)、趙鑫鵬(微信)

《CSS揭祕》作者Lea Verou訪談問題有獎徵集,問題入選的獲獎者有:安道、穿鞋子的貓、CSS魔法、暱稱(微信)、明燁(微信)、GingJan (微信)

《CSS揭祕》譯者CSS魔法訪談問題有獎徵集,問題入選的獲獎者有:穿鞋子的貓、大雄兔、XYZ(微信)


更多精彩,加入圖靈訪談微信!

相關文章