《資料科學實戰》作者Cathy O'Neil:大資料並不神奇(圖靈訪談)
Cathy O'Neil是約翰遜實驗室高階資料科學家、哈佛大學數學博士、麻省理工學院數學系博士後、巴納德學院教授,曾發表過大量算術代數幾何方面的論文。他曾在著名的全球投資管理公司D.E. Shaw擔任對衝基金金融師,後加入專門評估銀行和對衝基金風險的軟體公司RiskMetrics。Cathy是一位數學家,後來轉型為資料科學家,她的個人部落格http://mathbabe.org/廣受歡迎。她和哥倫比亞大學統計系兼職教授Rachel Schutt根據一門名為“資料科學導論”的課程撰寫了《資料科學實戰》一書。
問:當一個資料科學家最吸引你的是什麼?你的部落格上有一句話:非理論派的數學家能做些什麼,讓這個世界變得更加美好。你是否找到了這個問題的答案?
我愛資料!我喜歡看到通過測量資料,就能知道很多事物的工作原理。我特別享受為我們並不熟知的事物做量化的過程,我也喜歡對比兩個事物的影響,直到這些影響變得無法比較。
對於那個問題,我最大的線索就是:作為資料科學家,我需要花更多的時間和精力來確保做到三思而後行。資料科學是一種強大而具有影響力的工具,既可以作惡也可以行善。我們需要銘記這一點。
問:在你看來,具有什麼樣性格和學習背景的人最適合擔任資料科學方面的工作?
這要視情況而定。我的書《資料科學實戰》是以數學背景為前提寫的,但是說實話,一個資料科學團隊也需要有既瞭解科學方法,又有哲學與倫理學背景的人。要更好地解決問題,想法的多樣性是必不可少的。
問:很多讀者都受到了你的部落格Mathbabe.org的啟發,通過互動,你是否也被你的讀者所啟發?
當然!在智力上,我的讀者帶我經歷了很多奇異的刺激之旅。我每天都會為此心存感激。
問:很多人相信基於大資料的應用會助長人們對於原有習慣的依賴,這將限制人們對於多樣化體驗的嘗試,你同意嗎?
這可能是真的。比如說,簡歷或應用分類演算法如果只是從歷史資料中學習,而且只會再次產生老式的決策方式,那麼這種方法也只是編撰整理了系統原有的偏見,無論是性別歧視,還是對某些大學學位的偏好。我建議,人們應該弄明白他們真正尋找的是什麼,而且在落實這些技能的時候儘可能少的存有偏見。我們至少應該做出這樣的嘗試。
問:很多公司都從大資料得益不少,但是也有不少公司雖然根據資料制定政策和戰略,卻收益極少或虧損,你覺得他們在哪裡犯了錯誤?
他們通常認為大資料是很神奇的。當然,大資料並不神奇,你需要好的問題,而且,你需要的不僅是大資料,你還需要正確的資料,很多時候人們都疏於做到這點。
問:從很大程度來說,大資料是用來做預測的。你認為偶然的事件是否可以由確定的資料預測出來?
如果這個問題是,一個本質上無法預測的事件是否可以被預測出來,那麼我的回答是否定的!但是,這也可能是真的,畢竟連隨機系統都有一些根本的特徵。比如你有一個等待時間的程式,在你侃侃而談因為某個事件沒有發生而讓你倍感“驚奇”的時候,你需要先定義出讓你驚奇的事件。
問:為了更好更快地存取web資料,誕生了NoSQL。而傳統的資料庫也提出了資料空間(Data Space)這種先有資料,後有模式的概念。這些概念的應用情況如何?在這個領域還有哪些不為人知的課題?
總體來說,大資料使用的是無結構的亂糟糟的資料,至少在建立模型的時候是這樣。當模型成為成品之後,使用的有時候就是標準資料庫,到了產出結果和每日報告的時候,用的肯定就是標準資料庫了。
我一般會忽略這樣的關於資料儲存方面的問題,並不是因為無趣,而是因為這些技術的變化太快。當我需要忙活新專案的時候,我就會去弄清楚時下最好的技術是什麼。
問:在機器學習中,訓練資料通常都是給定的。從工程角度上來說,從資料庫提取訓練資料時最重要的是什麼?資料特徵,資料量,還是資料提取方式?
很難從總體上概括!當然,有時候你只是需要海量的訓練資料來訓練模型,但是其他時候你並不需要這麼多,你該小心的是你的樣本是否具有代表性。
對於我來說,如果可能的話,我總是根據時間戳來訓練模型。我提早開始訓練資料,然後我會用後面的資料做測試。
問:為了提取模型的關鍵因子,資料分析師通常需要對具體業務有較好的瞭解。是否有完成這項工作的捷徑?或者說這是資料工作無法避免的一部分?
這確實是無法避免的;只有領域專家才能指導建模,至少在最開始的時候必須如此,此時仍有容易達到的目標。隨後,當所有的專業知識都已被包括在內之後,模型可能就會變得不那麼具有領域特殊性了。
問:資料科學如今發展越來越快,《資料科學實戰》中是否有哪些內容是你想要更新的?還有哪些內容會在很長時間內保持不變?
當然有!這是一個飛速發展的領域,這一點我都想在簡介裡好好強調一下了。如果今天我要重寫這本書,每一章都會不同。但是話說回來,不變的是對於目標知識的總體學習方法,以及在專注於技術的同時仍不忽視人為影響的意識。隨著科技發展,技術會變得越來越好,在數學上越來越複雜,所以從某種角度來說,現在是成為資料科學家的最好時機。
更多精彩,加入圖靈訪談微信!
相關文章
- [英]《資料科學實戰》作者Cathy O'Neil:大資料並不神奇(圖靈訪談)資料科學大資料圖靈
- 《資料科學實戰》作者Cathy O'Neil訪談問題有獎徵集(圖靈訪談)資料科學圖靈
- 《機器學習實戰》作者Peter Harrington:如何成為一位資料科學家(圖靈訪談)機器學習資料科學圖靈
- 向《命令列中的資料科學》作者Jeroen Janssens提問!(圖靈訪談)命令列資料科學圖靈
- 《Spark快速大資料分析》作者Holden Karau訪談問題有獎徵集(圖靈訪談)Spark大資料圖靈
- 《用資料講故事》作者Cole Knaflic訪談話題有獎徵集(圖靈訪談)圖靈
- 《HTTP權威指南》作者Anshu Aggarwal:用大資料來節能(圖靈訪談)HTTP大資料圖靈
- 《精益資料分析》作者Alistair Croll訪談問題有獎徵集(圖靈訪談)AI圖靈
- 《奇思妙想》作者Dennis Shasha:小品電腦科學(圖靈訪談)圖靈
- [英]《奇思妙想》作者Dennis Shasha:小品電腦科學(圖靈訪談)圖靈
- 《R包開發》作者Hadley Wickham:資料結構“神童”(圖靈訪談)資料結構圖靈
- 《大資料》作者Jeffrey D. Ullman訪談問題徵集大資料
- Coursera資料工程師董飛:矽谷大資料的過去與未來(圖靈訪談)工程師大資料圖靈
- 肖鵬:微博資料庫那些事兒(圖靈訪談)資料庫圖靈
- O'Reilly精品圖書推薦:資料科學入門資料科學
- 再訪《Scratch少兒趣味程式設計》系列圖書作者阿部和廣、倉本大資(圖靈訪談)程式設計圖靈
- 《跟阿銘學Linux》作者阿銘訪談話題有獎徵集(圖靈訪談)Linux圖靈
- 《禽獸心理學》作者Anna Salter訪談問題有獎徵集(圖靈訪談)圖靈
- 《用資料講故事》作者Cole N. Knaflic:消除一切無效的圖表(圖靈訪談)圖靈
- 《演算法問題實戰策略》作者具宗萬訪談問題有獎徵集(圖靈訪談)演算法圖靈
- Jolt大獎獲獎作者Venkat Subramaniam訪談問題有獎徵集(圖靈訪談)圖靈
- 韓冀中:淺談Hadoop實戰(圖靈訪談)Hadoop圖靈
- 《機器學習》作者Peter Flach訪談問題有獎徵集(圖靈訪談)機器學習圖靈
- 再訪《Scratch少兒趣味程式設計》系列圖書作者阿部和廣、倉本大資訪談問題有獎徵集(圖靈訪談)程式設計圖靈
- 大資料與生命科學大資料
- 《演算法圖解》作者Adit Bhargava訪談問題徵集(圖靈訪談)演算法圖解圖靈
- 《特斯拉》作者卡爾森教授訪談問題有獎徵集(圖靈訪談)圖靈
- 《釋出!》作者Michael Nygard訪談問題有獎徵集(圖靈訪談)圖靈
- 《精益資料分析》作者Alistair Croll: Spammers are actually much better at marketing than I am(圖靈訪談)AI圖靈
- 蔡學鏞:這一題不答(圖靈訪談)圖靈
- 奇虎360資料專家傅志華訪談問題有獎徵集(圖靈訪談)圖靈
- 《跟阿銘學Linux》作者李世明:談不上告白,就是幫女友轉型而已(圖靈訪談)Linux圖靈
- 有獎 |《Lua設計與實現》作者codedump訪談話題徵集(圖靈訪談)圖靈
- 《圖靈的祕密》作者Charles Petzold:我眼中的圖靈機和Windows(圖靈訪談)圖靈Windows
- 《CSS揭祕》作者Lea Verou訪談問題有獎徵集(圖靈訪談)CSS圖靈
- 《鳳凰專案》作者基恩·金訪談問題有獎徵集(圖靈訪談)圖靈
- 白宸—阿里雲資料庫專家,訪談問題有獎徵集(圖靈訪談)阿里資料庫圖靈
- 使用知識圖解開生命科學資料挑戰圖解