譯 者 序

陳孟寒發表於2015-10-23

大資料是這幾年科技和應用領域炙手可熱的話題,而Spark又是大資料領域裡最活躍的技術。對Spark這個技術,國內研究比較多的是原理和原始碼,而許多客戶抱怨Spark應用落地難。造成這一現象的一個主要原因是Spark技術比較新,許多應用還處在探索階段。Cloudera公司作為全球大資料領域的領頭羊,在給全球客戶提供最高質量大資料平臺的同時,也積累了許多Spark應用方面的寶貴經驗。本書四位作者均為Cloudera公司的資料科學家,也長期為客戶提供專業的資料分析服務。可以說,本書的出版將為Spark資料分析專案的落地起到巨大的推動作用。

同時我也注意到,國內Spark資料分析方面的書籍少,而且許多書籍都停留在原始碼研究的層面上。當然,這些書中也不乏非常優秀的作品,但我認為Spark真正的力量在於其開發的大資料應用。所以早在本書還處於初期編寫過程中時,我就自告奮勇和作者聯絡中文版事宜,希望以此為中國的大資料分析事業略盡綿力。 本書在翻譯過程中得到了許多人的幫助。首先要感謝我在Cloudera公司的同事,也就是本書的四位作者。在本書的翻譯過程中,由於不同語言的習慣問題,四位作者Sandy Ryza、Uri Laserson、Sean Owen和Josh Wills花了許多時間和我交流。本人之所以有幸負責本書的中文版翻譯,也是承蒙Sean Owen的引薦。感謝Cloudera公司全球副總裁凌琦先生和苗凱翔博士,沒有兩位領導的努力,Cloudera中國區團隊不可能如此迅速組建並形成如此強大的戰鬥力,我也無法參與到轟轟烈烈的大資料事業中。感謝我的同事田占鳳博士和陳建忠的鼓勵,中文版的翻譯工作才得以開始。英特爾亞太研發公司工程師邱鑫對本書初稿的修改貢獻了許多寶貴建議。同時本書在翻譯過程中還得到了Cloudera公司中國區同事劉賀峰、糜君、陳飈、陳新江、李大超和張莉蘋的鼎力幫助。感謝圖靈公司的李鬆峰編輯和嶽新欣編輯在翻譯過程中的指導和仔細審閱。由於本書的翻譯都是在週末完成的,所以要特別感謝我的妻子周幼瓊在每個週末對我的照顧。

由於本人的水平有限,同時本書涉及許多課題,所以現有譯文中難免存在紕漏之處。希望讀者能夠不吝賜教,發現問題時麻煩和我聯絡。郵件請傳送至gongshaocheng@gmail.com。

龔少成

2015 年7 月於上海

相關文章