《資料科學實戰》作者Cathy O'Neil:大資料並不神奇(圖靈訪談)

盼盼姐發表於2015-04-08

Cathy O'Neil是約翰遜實驗室高階資料科學家、哈佛大學數學博士、麻省理工學院數學系博士後、巴納德學院教授,曾發表過大量算術代數幾何方面的論文。他曾在著名的全球投資管理公司D.E. Shaw擔任對衝基金金融師,後加入專門評估銀行和對衝基金風險的軟體公司RiskMetrics。Cathy是一位數學家,後來轉型為資料科學家,她的個人部落格http://mathbabe.org/廣受歡迎。她和哥倫比亞大學統計系兼職教授Rachel Schutt根據一門名為“資料科學導論”的課程撰寫了《資料科學實戰》一書。

《資料科學實戰》作者Cathy O'Neil:大資料並不神奇(圖靈訪談)

問:當一個資料科學家最吸引你的是什麼?你的部落格上有一句話:非理論派的數學家能做些什麼,讓這個世界變得更加美好。你是否找到了這個問題的答案?

我愛資料!我喜歡看到通過測量資料,就能知道很多事物的工作原理。我特別享受為我們並不熟知的事物做量化的過程,我也喜歡對比兩個事物的影響,直到這些影響變得無法比較。

對於那個問題,我最大的線索就是:作為資料科學家,我需要花更多的時間和精力來確保做到三思而後行。資料科學是一種強大而具有影響力的工具,既可以作惡也可以行善。我們需要銘記這一點。

問:在你看來,具有什麼樣性格和學習背景的人最適合擔任資料科學方面的工作?

這要視情況而定。我的書《資料科學實戰》是以數學背景為前提寫的,但是說實話,一個資料科學團隊也需要有既瞭解科學方法,又有哲學與倫理學背景的人。要更好地解決問題,想法的多樣性是必不可少的。

問:很多讀者都受到了你的部落格Mathbabe.org的啟發,通過互動,你是否也被你的讀者所啟發?

當然!在智力上,我的讀者帶我經歷了很多奇異的刺激之旅。我每天都會為此心存感激。

問:很多人相信基於大資料的應用會助長人們對於原有習慣的依賴,這將限制人們對於多樣化體驗的嘗試,你同意嗎?

這可能是真的。比如說,簡歷或應用分類演算法如果只是從歷史資料中學習,而且只會再次產生老式的決策方式,那麼這種方法也只是編撰整理了系統原有的偏見,無論是性別歧視,還是對某些大學學位的偏好。我建議,人們應該弄明白他們真正尋找的是什麼,而且在落實這些技能的時候儘可能少的存有偏見。我們至少應該做出這樣的嘗試。

問:很多公司都從大資料得益不少,但是也有不少公司雖然根據資料制定政策和戰略,卻收益極少或虧損,你覺得他們在哪裡犯了錯誤?

他們通常認為大資料是很神奇的。當然,大資料並不神奇,你需要好的問題,而且,你需要的不僅是大資料,你還需要正確的資料,很多時候人們都疏於做到這點。

問:從很大程度來說,大資料是用來做預測的。你認為偶然的事件是否可以由確定的資料預測出來?

如果這個問題是,一個本質上無法預測的事件是否可以被預測出來,那麼我的回答是否定的!但是,這也可能是真的,畢竟連隨機系統都有一些根本的特徵。比如你有一個等待時間的程式,在你侃侃而談因為某個事件沒有發生而讓你倍感“驚奇”的時候,你需要先定義出讓你驚奇的事件。

問:為了更好更快地存取web資料,誕生了NoSQL。而傳統的資料庫也提出了資料空間(Data Space)這種先有資料,後有模式的概念。這些概念的應用情況如何?在這個領域還有哪些不為人知的課題?

總體來說,大資料使用的是無結構的亂糟糟的資料,至少在建立模型的時候是這樣。當模型成為成品之後,使用的有時候就是標準資料庫,到了產出結果和每日報告的時候,用的肯定就是標準資料庫了。

我一般會忽略這樣的關於資料儲存方面的問題,並不是因為無趣,而是因為這些技術的變化太快。當我需要忙活新專案的時候,我就會去弄清楚時下最好的技術是什麼。

問:在機器學習中,訓練資料通常都是給定的。從工程角度上來說,從資料庫提取訓練資料時最重要的是什麼?資料特徵,資料量,還是資料提取方式?

很難從總體上概括!當然,有時候你只是需要海量的訓練資料來訓練模型,但是其他時候你並不需要這麼多,你該小心的是你的樣本是否具有代表性。

對於我來說,如果可能的話,我總是根據時間戳來訓練模型。我提早開始訓練資料,然後我會用後面的資料做測試。

問:為了提取模型的關鍵因子,資料分析師通常需要對具體業務有較好的瞭解。是否有完成這項工作的捷徑?或者說這是資料工作無法避免的一部分?

這確實是無法避免的;只有領域專家才能指導建模,至少在最開始的時候必須如此,此時仍有容易達到的目標。隨後,當所有的專業知識都已被包括在內之後,模型可能就會變得不那麼具有領域特殊性了。

問:資料科學如今發展越來越快,《資料科學實戰》中是否有哪些內容是你想要更新的?還有哪些內容會在很長時間內保持不變?

當然有!這是一個飛速發展的領域,這一點我都想在簡介裡好好強調一下了。如果今天我要重寫這本書,每一章都會不同。但是話說回來,不變的是對於目標知識的總體學習方法,以及在專注於技術的同時仍不忽視人為影響的意識。隨著科技發展,技術會變得越來越好,在數學上越來越複雜,所以從某種角度來說,現在是成為資料科學家的最好時機。


更多精彩,加入圖靈訪談微信!

相關文章