“龍書”作者Jeffery Ullman:相信你自己,自由地思考(圖靈訪談)

盼盼姐發表於2013-01-17

圖靈訪談之四十一:專訪《大資料》作者Jeffery Ullman教授

英文版
完整無修訂英文版
Jeffrey David Ullman是一位電腦科學家,現任史丹佛大學的教授。他編寫的關於編譯器的教科書(各種版本非常流行被稱為“龍書”)、關於計算理論的書(被稱為“灰姑娘書”),以及資料結構和資料庫的相關書籍都被視為是業界的規範。1995年,他成為美國計算機協會(ACM)的院士,2000年被授予 Knuth獎。他還和John Hopcroft一起獲得2010年IEEE頒發的馮諾依曼獎章。詳細資訊。

圖靈社群:“大資料”現在在中國炒得很熱,在各種技術會議、書、討論中都有空前得熱度。你認為“大規模資料探勘”(massive dataset mining)在其中的角色是什麼?

我認為“大規模資料探勘”根本上和“大資料”是一個意思。但這並不意味著MMDS(《大資料》)這本書包含了關於大資料的一切。我和Anand Rajaraman博士對我們所挑選的演算法可謂是精挑細選。具體說來,就是我們避開了現在被稱作“機器學習”的部分。現在有一些非常強大的研究者,組成了他們稱為“機器學習”的社群,雖然他們所研究的演算法——包括聚合和梯度下降——在“機器學習”開始火熱的很長時間以前,就已經很出名而且被很多人認真地研究過了。實際上,“機器學習”就是給一些特定演算法加上的一個標籤,而且,也存在其他一些演算法,在有效分析資料方面,這些演算法的重要性有過之而無不及。其中最為突出的例子就是“區域性敏感雜湊”(LSH),它並不被認為屬於機器學習,也不是由“機器學習”研究者發明的。我在全世界各地演講,傾聽人們關於計算挑戰的討論,我認為很多人普遍缺失對於LSH技術的知識。所以我們決定在《大資料》這本書中給予LSH以足夠的重視。

圖靈社群:作為一名學者同時也是教育者,您是如何應對“大資料”熱的?您為什麼要持續更新《大資料》這本書,又為什麼把它免費分享給大家?

“大資料”說的是一組真正意義上重要而且有挑戰性的問題。它和很多現在流行的熱門詞有很大不同,那些概念流行了數年之後就會消失,什麼也留不下,而我認為大資料演算法的研究值得調動一切可以調動的力量。但是接下來好像是兩個問題,一個是為什麼要對這本書持續更新,另一個是它為什麼是免費的。

首先,我為什麼要持續更新。幾年前,我們很幸運地邀請到Jure Leskovec加入到史丹佛大學,現在他已經撐起了資料探勘這門課的很大部分。Jure在一定程度上和我與Anand的觀點有所不同,他對機器學習演算法更感興趣,他的個人研究包括了社交網路及其相關的圖問題。所以現在,Jure作為另一位作者加入到這本書中來,在書中另外開闢了一個章節,關於社交網路分析的演算法。在不遠的未來,我們打算加入大規模機器學習演算法,以及大規模降維演算法。另外,我在Google、史丹佛,以及其他地方從事的個人研究,讓我加深了對於Map-Reduce演算法的理解。所以我最近把這些知識融入到第二章中去了。

然後是,這本書為什麼是免費的。有幾個原因。其中最重要的原因就是,我和Anand都不需要通過出版這本書得到的那點版稅。劍橋大學出版社願意在有免費電子版的情況下出版此書,我們感到很高興,他們以這種方式出版也不是第一次了。他們的編輯David Tranah告訴我,他們也希望能通過書來賺錢,但是幾百年來,他們認識到,作為一家非盈利性的大學出版社,他們的首要任務是要傳播知識。

於是這也就引發了第二個原因:盈利性的出版社變得越來越貪婪,他們在美國把書價抬得極高,可以說比那些書應有的價值高出很多。所以,沒有人買書,或者買了看完了就要再賣掉,所以書的整體銷量比七八十年代的時候還要少。所以,與其通過盈利性出版社賺取一點小錢,作者們越來越有理由選擇讓自己的書免費,讓更多的人讀到它。舉例來說,《大資料》這本書每年會被下載25萬次左右。這比我所有出版過的紙版書都要多十倍以上。對於Anand和我的工作來說,沒有比這更令人欣慰的了。

其實對於這本書的免費,還有一個真實原因,那就是非法檔案分享系統已經完全不尊重我們的智慧財產權了,所以買我們書的人其實都是誠實的人,他們不願意和盜版同流合汙。而這些人的錢,我們是不願意拿的。

圖靈社群:Map-Reduce框架更主要用於離線處理,如果線上處理有什麼計算框架值得推薦?除了Map-Reduce計算框架外,還有什麼大規模資料探勘的框架值得關注?

我認為“線上處理”有兩個意思。第一個是事務處理。資料探勘總體來說不需要事務處理,所以“大資料”應用也不需要事務處理。第二個是特定查詢,你鍵入你想到的任 何查詢,然後在幾秒鐘後檢查結果,如果不滿意就重新鍵入查詢。大資料應用需要較長的執行時間,所以不太適合特定查詢。有一些新系統,在這方面超過了Map-Reduce,在真正的大資料面前只需要幾秒鐘就能給查詢以反饋。你可以看一看Dremel 系統 http://research.google.com/pubs/pub36632.html,這個系統據我理解,其實是模仿了一個開源系統,叫做Dream。

圖靈社群:很多讀者反映這本書中有很多例項應用,都是乾貨,Rajaraman博士對此貢獻不少吧?也有讀者反映這本書對於有實踐經驗的人來說更好理解,您對此有什麼建議?

Anand對整本書都有很大貢獻。他對特定的應用很感興趣,因為他曾經在Kosmix有創業背景,而Kosmix和這些應用都有關係,其中包括廣告和協同過濾等。我很同意的一點是,在這個學科以及任何電腦科學的學科裡,好的教育都應該包括實踐的內容。在我和Anand共同教授的課程中,我們要求學生自己組成小的團隊,一起應用所學的知識完成一個專案。這件事並沒有像我們所期望的那樣順利進展,因為學生們大部分時間都用在研讀學習材料上,來不及應用。Jure加入以後,我們把課程分成了兩個部分。在上學期,Jure教授課程,在下學期,我們選拔學生團隊來完成專案,這些專案是他們應用學到的知識而設計的。我、Anand, 以及Jure,我們每個人都會帶4支團隊。

圖靈社群:你有那麼多出色的學生,有些人和你共同寫書,有些人開創了Google。你最喜歡的學生是誰呢?在教他們的時候有什麼趣事嗎?

我可不能說我最喜歡哪個學生。我們都認為Sergey Brin是我的學生中最成功的一個。但是我真的沒有教給他什麼。Anand Rajaraman和 Venky Harinarayan以及Ashish Gupta(他們三個共同創立了Junglee,然後Anand和Venky又一起成立了Kosmix)也很成功。但是我幫到他們的也不多。有兩個學生在確定我的研究方向上幫助了我。Matt Hecht讓我開始了程式碼優化的研究,而Allan Van Gelder幫我進入了邏輯程式設計領域,這是資料庫研究的一大分支,資料記錄領域。但是我認為最好的學生,是那些如果我沒有橫加干預把他們送上一條嶄新的道路,他們就永遠都無法博士畢業的學生。很明顯,我可不能說具體是誰。

圖靈社群:你認為美國大學中存在一種黑客文化嗎?這樣的文化在學業上產生了什麼影響?

對於黑客有幾種解讀。第一種,是善於攻入其他人電腦系統,竊取資料的人。從這種意義上說,很少有學生參與這樣的活動。

另外一種意思是具有程式設計和科技知識的人。我們在史丹佛會經常會看見這樣的人,但是也不是特別多,軟體學院的最好的學生也有自己的興趣。史丹佛甚至不允許學生們只關注一門學科!要在史丹佛取得學士學位,你的學分只能有三分之一是來自於本專業的。這在美國學校中是比較普遍的現象。

但是史丹佛的文化中確實有與眾不同的成分,那就是大家都能開公司。甚至比應該鼓勵的數量還要多,也有很多不成功的例子。但是令人驚奇的是很多學生畢業之後都不想去已經存在的公司上班,他們都想開創自己的公司。這裡有幾門課專門講如何“創業”,這樣的文化確實在史丹佛校園裡薪火相傳。

圖靈社群:從一位教師的角度上看,你覺得你班上的中國學生怎麼樣?你對他們有什麼建議嗎?

你可能覺得這件事很有趣,那就是我教授的班級裡通常有一半學生是中國人。他們有很多都是在美國出生的碩士學生,但是也有很多是從中國,以及其他亞洲地區來的。我的建議不只送給他們,也送給所有的學生。

第一,相信你自己,而不是長輩;放眼望去,有多少偉大的計算機公司(微軟, Oracle, 蘋果, Google, Yahoo!, 亞馬遜, Facebook)是由年輕人創立的。第二,不要害怕失敗。如果你失敗的次數沒有成功的多的話,說明你想搞定的問題根本就不值得解決。

圖靈社群:我們計劃出版中文版的《電腦科學的基礎,C版》,我注意到您對這本書很是推崇,您覺得這本“老書”在今天的存在意義何在?

當這本“基礎”由Freeman出版公司出版的時候,賣的並不好,最後絕版了。阿霍和我一直認為用這種方式來展示電腦科學理論是最好的:把數學和程式設計看作是同一個硬幣的兩面。比方說,我們會解釋,其實歸納證明和遞迴程式是源於同一個概念。但是這本書的影響力在我們把它免費開放在網際網路上之前並不大。我認為這並不是個巧合。在美國的高校都很不情願讓學生買昂貴的教科書,儘管學生學費加上損失的機會成本(學生在學校的時間是沒法掙錢的)要100倍於教科書的價格。這樣的觀點很愚蠢,但是我責怪的是在美國把書價定得過高的出版商,這樣做損失了他們的市場。

圖靈社群:是誰設計了《大資料》的封面?後面有什麼故事嗎?

《大資料》和“龍書”的封面都是我的兒子Scott設計的。

圖靈社群您認為面向資料集的作業系統應該具備什麼特徵?

我沒看出來資料探勘在作業系統上也是個問題。也許選取合適的資料庫管理系統是個問題,比如說傳統的關係型系統和"no-SQL"相比較。我確實注意到SQL並沒有消失,人們正努力把它融入不同平臺上以管理大規模資料。


更多精彩,加入圖靈訪談微信!

相關文章