Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析

努力醬發表於2017-05-02

董飛是矽谷華人工程師裡的“熱門人物”, 本科南開大學、碩士杜克大學計算機系畢業。在攻讀碩士期間,即從事跟Hadoop大資料相關的研究專案。先後在創業公司酷迅,百度基礎架構組,Amazon雲端計算部門,LinkedIn擔任高階工程師,負責過垂直搜尋引擎、百度雲端計算平臺研發、廣告系統和線上教育平臺的架構的設計和研發。在大資料領域業界研究多年,涉及Hadoop調優、分散式框架、Data Pipeline、實時系統等技術。


董飛2015年在矽谷創業公司Coursera從事資料工程師工作,對於矽谷公司的大資料應用方面有著豐富的實戰經驗。本文是對他去年任職Coursera時所發表的一次演講的整理文,主要介紹了Coursera及其架構演變,探討了矽谷大資料熱點與相關技術。


20160405052444428.jpg
(董飛)


董飛首先介紹了Coursera, 由美國史丹佛大學電腦科學教授 Andrew Ng和Daphne Koller創辦,旨在同世界頂尖大學合作,線上提供免費的網路公開課程,Coursera目前已經有117所大學提供的988門課程,已經有超過一千二百萬學習者使用過。作為熱門的線上教育專案,Coursera成功為學習者和課程提供方搭起了橋樑。


20160405052503238.jpg
 

Coursera還與世界頂尖大學,例如史丹佛大學、密歇根大學、普林斯頓大學、賓夕法尼亞大學等都建立了深度合作關係,頒發證書認證。董飛表示,“大約30%的學者願意付費購買證書,70%的VC使用者則將這些證書釋出到LinkedIn上,這為大家帶來了雙贏價值”。


20160405052520292.png


Coursera推出的課程種類繁多,其中有一項叫“專項課程”,它也是Coursera最主要的收入之一。”專項課程“的成功之處在於:


   

  • 60%的學習者表示他們學習“專項課程”的動機 是通過“畢業專案”和“專項課程簽名認證證書”來展示 他們對知識的掌握程度。

  • 74%的學習者認為“畢業專案”比理論課程 更具價值,理由是他們希望利用“畢業專案”來解決實際 問題,同時獲得行業實踐經驗。

  • 77%的學習者則認為由行業從業人員和授課教 師共同設計和實施“畢業專案”,比單單由授課教 師設計更有價值。

   


Coursera課程研究:靠資料來說話  

 

Coursera針對課程類別、各個國家以及不同領域的使用者情況進行了資料統計和統計。 如下圖資料顯示:其中選擇人文類的使用者數最多,電腦科學次之,排在最末的是臨床科學,這也說明其較為冷門。【注:括號裡代表的是這門課程的門數】


20160405052549825.jpg

(不同課程內容分類:橫座標表示的是註冊人數,註冊人數越多,說明它越有吸引力。)


通過下圖可以看出:紅色代表是受歡迎度,顏色越深說明它關注度越強,比如美國、加拿大、中國香港等這些大學關注度比較高; 藍色代表的是冷門,顏色越深說明它沒有關注度,或者叫負相關度,比如法國。

20160405052657517.jpg
(各國大學關注度)


學習者主要分為四種型別:


   

  • 第一類:大學生,求知型,平均年齡15歲-20歲;

  • 第二類:終生學習者(Enrichment learners),年齡分佈較為均勻;

  • 第三類:特定技能學習者(有點像極客),他們更喜歡接受新技術,尤其是20歲到30歲中間的人居多;

  • 第四類:商業發展或升職技能,比如有人想晉升或者想換個行業,這類使用者會選擇某個特定領域進行學習。

   

20160405052723162.jpg
(學者領域分佈圖)


Coursera的技術架構 

 

作為一家矽谷的線上教育專案創業公司,Coursera員工數約為180人,其中技術人員是80人左右,佔比40%。Coursera擁有1000萬名學習者(這個使用者數還在不斷增長),面對全球不同時區的使用者,如何保證最佳的使用者體驗?

20160405052749443.jpg
 

資料庫的選擇上,Coursera最初採用的是MySQL,但遇到的問題是,在高併發訪問量和當機時候會造成使用者體驗的大幅下降,於是Coursera將資料庫遷移至Cassandra,其穩定性和易用性還不錯。


程式語言使用上,Coursera則選擇了Scala。Scala物件導向,基於Scala可以呼叫所有JVM上面的東西, 雖然這聽起來很酷,但很多公司還是不敢用。


20160405052825770.png
Coursera技術架構圖)


Coursera底層架構100%部署於AWS上,因為 Coursera的大多數使用者訪問來自於(PC)Web,但後來為了改進手機端的使用者體驗,工程師們利用 Swift來重寫APP。


對於為何採用使用SOA?董飛認為,首先SOA架構能夠做到彈性擴充套件,其次在於服務優先順序,重用,簡化,希望通過這種模式去推動整個技術的升級。” 矽谷有很多公司在使用SOA,包括 Tumblr、BOX、LinkIN、NETFLIX、Amazon、eBay等。”


“而採用Rest框架的好處在於:所有API可外部化,易於除錯,零技術鎖定”。


20160405052851788.png

20160405052907977.jpg
(Coursera架構中用到的軟體)

 

隨後,董飛還和與會者交流了時下在矽谷的大資料應用浪潮和熱門技術。


20160405052926409.jpg


20160405053004115.jpg


Gartner公司每年釋出技術趨勢炒作圖。2015年和2014年的圖對比顯示,物聯網、自動駕駛汽車、消費級 3D 列印、自然語言問答等概念正在處於炒作的頂峰。而大資料已從頂峰滑落,NFC和雲端計算接近谷底。


來源:CSDN


本文來自雲棲社群合作伙伴”DBAplus”,原文釋出時間:2016-04-05


相關文章