向《命令列中的資料科學》作者Jeroen Janssens提問!(圖靈訪談)

盼盼姐發表於2015-07-30

Jeroen Janssens是愛思唯爾(世界領先的科技及醫學出版公司)首席資料科學家,曾是紐約YPlan公司高階資料科學家。專門從事機器學習、異常檢測和資料視覺化。在荷蘭馬斯特裡赫特大學獲得人工智慧碩士學位,在荷蘭蒂爾堡大學獲得機器學習博士學位。他熱衷於建立資料科學的開源工具,個人網站是http://jeroenjanssens.com/。Jeroen著有《命令列中的資料科學》一書。

向《命令列中的資料科學》作者Jeroen Janssens提問!(圖靈訪談)

作者自述《命令列中的資料科學》的來歷:

大約5年前,在攻讀博士學位期間,我逐步從使用微軟Windows轉為使用GUN/Linux。剛開始我有點謹小慎微,因此同時安裝了這兩個作業系統(也就是雙系統啟動)。後來,在這兩個系統之間切換的需求越來越少,有時我甚至對Arch Linux修修補補,能從零開始自己定製作業系統。這時能用的只有命令列,而且想做什麼完全隨心所欲。很快,我就對使用命令列得心應手。最終,由於業餘時間越來越寶貴,我決定使用名為Ubuntu的GNU/Linux發行版,因為它易於使用並且有龐大的社群。儘管如此,命令列仍然是我完成絕大部分工作的不二選擇。

實際上,我後來認識到,命令列不單可以用於安裝軟體、配置系統以及搜尋檔案。於是我開始學習諸如cutsortsed這些命令列工具。這些工具都是將資料作為輸入,對資料進行處理,然後列印結果。Ubuntu自帶了相當多這樣的工具。當明白可以將這些小工具結合起來使用時,我就對它入迷了。

當我拿到博士學位,成為一名資料科學家時,我想充分利用這種方法來做資料科學工作。幸虧有幾個新的開源命令列工具,包括scrapejqjson2csv,我甚至能夠使用命令列來完成抓取網站以及處理大量JSON資料這樣的任務。2013年9月,我寫了一篇名為“資料科學的7個命令列工具”的部落格文章。讓我吃驚的是,這篇文章獲得很大反響。後來許多人向我推薦其他命令列工具,於是我開始考慮是否可以將這篇文章擴充成書。令人高興的是,10個月之後,在許多才華橫溢的人的幫助下,本書得以付梓。

分享這段個人經歷不僅是想介紹本書的由來,更是希望你知道我也是需要學習命令列的。使用命令列與使用圖形化使用者介面迥然不同,剛開始可能是令人生畏的。但是,既然我能夠學會它,你當然也沒問題。不管你目前使用的是什麼作業系統,也不管你現在是以什麼方式做資料科學的工作,讀完本書,你也能夠利用命令列的強大能力。即使你已經熟悉命令列,或者甚至已經打算學習shell指令碼,你仍然可能在書中發現一些有趣技巧或命令列工具,能用於未來的資料科學專案。

作品選讀:為什麼用命令列做資料科學工作

最終入選問題的提問者,將獲得圖靈社群送出的圖靈電子書一本。

往期活動回顧:
《平面宇宙》作者A. K. 杜德尼教授訪談問題有獎徵集,問題入選的獲獎者有:好久不見,textpattern,喵了個咪的喵,normalme,空軍,華元

《學習響應式設計》作者Clarissa Peterson訪談問題有獎徵集,問題入選的獲獎者有:喵了個咪的喵,normalme,fdy1045,好久不見,痛飲狂歌

《Swift與Cocoa框架開發》作者Paris Buttfield-Addison有獎問題徵集,問題入選的獲獎者有:好久不見,normalme,likeya,linqiangz

《你不知道的JavaScript》作者Kyle Simpson訪談問題有獎徵集,問題入選的獲獎者有:likeya,fdy1045,好久不見,深紅,normalme,卞林


更多精彩,加入圖靈訪談微信!

相關文章