Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析
董飛是矽谷華人工程師裡的“熱門人物”, 本科南開大學、碩士杜克大學計算機系畢業。在攻讀碩士期間,即從事跟Hadoop大資料相關的研究專案。先後在創業公司酷迅,百度基礎架構組,Amazon雲端計算部門,LinkedIn擔任高階工程師,負責過垂直搜尋引擎、百度雲端計算平臺研發、廣告系統和線上教育平臺的架構的設計和研發。在大資料領域業界研究多年,涉及Hadoop調優、分散式框架、Data Pipeline、實時系統等技術。
董飛2015年在矽谷創業公司Coursera從事資料工程師工作,對於矽谷公司的大資料應用方面有著豐富的實戰經驗。本文是對他去年任職Coursera時所發表的一次演講的整理文,主要介紹了Coursera及其架構演變,探討了矽谷大資料熱點與相關技術。
(董飛)
董飛首先介紹了Coursera, 由美國史丹佛大學電腦科學教授 Andrew Ng和Daphne Koller創辦,旨在同世界頂尖大學合作,線上提供免費的網路公開課程,Coursera目前已經有117所大學提供的988門課程,已經有超過一千二百萬學習者使用過。作為熱門的線上教育專案,Coursera成功為學習者和課程提供方搭起了橋樑。
Coursera還與世界頂尖大學,例如史丹佛大學、密歇根大學、普林斯頓大學、賓夕法尼亞大學等都建立了深度合作關係,頒發證書認證。董飛表示,“大約30%的學者願意付費購買證書,70%的VC使用者則將這些證書釋出到LinkedIn上,這為大家帶來了雙贏價值”。
Coursera推出的課程種類繁多,其中有一項叫“專項課程”,它也是Coursera最主要的收入之一。”專項課程“的成功之處在於:
-
60%的學習者表示他們學習“專項課程”的動機 是通過“畢業專案”和“專項課程簽名認證證書”來展示 他們對知識的掌握程度。
-
74%的學習者認為“畢業專案”比理論課程 更具價值,理由是他們希望利用“畢業專案”來解決實際 問題,同時獲得行業實踐經驗。
-
77%的學習者則認為由行業從業人員和授課教 師共同設計和實施“畢業專案”,比單單由授課教 師設計更有價值。
Coursera課程研究:靠資料來說話
Coursera針對課程類別、各個國家以及不同領域的使用者情況進行了資料統計和統計。 如下圖資料顯示:其中選擇人文類的使用者數最多,電腦科學次之,排在最末的是臨床科學,這也說明其較為冷門。【注:括號裡代表的是這門課程的門數】
(不同課程內容分類:橫座標表示的是註冊人數,註冊人數越多,說明它越有吸引力。)
通過下圖可以看出:紅色代表是受歡迎度,顏色越深說明它關注度越強,比如美國、加拿大、中國香港等這些大學關注度比較高; 藍色代表的是冷門,顏色越深說明它沒有關注度,或者叫負相關度,比如法國。
(各國大學關注度)
學習者主要分為四種型別:
-
第一類:大學生,求知型,平均年齡15歲-20歲;
-
第二類:終生學習者(Enrichment learners),年齡分佈較為均勻;
-
第三類:特定技能學習者(有點像極客),他們更喜歡接受新技術,尤其是20歲到30歲中間的人居多;
-
第四類:商業發展或升職技能,比如有人想晉升或者想換個行業,這類使用者會選擇某個特定領域進行學習。
(學者領域分佈圖)
Coursera的技術架構
作為一家矽谷的線上教育專案創業公司,Coursera員工數約為180人,其中技術人員是80人左右,佔比40%。Coursera擁有1000萬名學習者(這個使用者數還在不斷增長),面對全球不同時區的使用者,如何保證最佳的使用者體驗?
在資料庫的選擇上,Coursera最初採用的是MySQL,但遇到的問題是,在高併發訪問量和當機時候會造成使用者體驗的大幅下降,於是Coursera將資料庫遷移至Cassandra,其穩定性和易用性還不錯。
在程式語言使用上,Coursera則選擇了Scala。Scala物件導向,基於Scala可以呼叫所有JVM上面的東西, 雖然這聽起來很酷,但很多公司還是不敢用。
(Coursera技術架構圖)
Coursera底層架構100%部署於AWS上,因為 Coursera的大多數使用者訪問來自於(PC)Web,但後來為了改進手機端的使用者體驗,工程師們利用 Swift來重寫APP。
對於為何採用使用SOA?董飛認為,首先SOA架構能夠做到彈性擴充套件,其次在於服務優先順序,重用,簡化,希望通過這種模式去推動整個技術的升級。” 矽谷有很多公司在使用SOA,包括 Tumblr、BOX、LinkIN、NETFLIX、Amazon、eBay等。”
“而採用Rest框架的好處在於:所有API可外部化,易於除錯,零技術鎖定”。
(Coursera架構中用到的軟體)
隨後,董飛還和與會者交流了時下在矽谷的大資料應用浪潮和熱門技術。
Gartner公司每年釋出技術趨勢炒作圖。2015年和2014年的圖對比顯示,物聯網、自動駕駛汽車、消費級 3D 列印、自然語言問答等概念正在處於炒作的頂峰。而大資料已從頂峰滑落,NFC和雲端計算接近谷底。
來源:CSDN
本文來自雲棲社群合作伙伴”DBAplus”,原文釋出時間:2016-04-05
相關文章
- Coursera資料工程師董飛:矽谷大資料的過去與未來(圖靈訪談)工程師大資料圖靈
- 阿里巴巴資深大資料工程師:大資料處理實踐阿里大資料工程師
- 矽谷大資料【上】:什麼是 “改變世界” 的大資料公司大資料
- 大資料公司挖掘資料價值的49個典型案例大資料
- 【雲端大資料實戰】大資料誤區、大資料處理步驟分析大資料
- 七牛大資料平臺的實時資料分析實戰大資料
- LinkedIn開源Cubert,著眼於大資料分析大資料
- LinkedIn大資料工程的升級大資料
- 《Hadoop+Spark大資料分析實戰》簡介HadoopSpark大資料
- Python | 資料分析實戰ⅠPython
- Python | 資料分析實戰 ⅡPython
- 基於python的大資料分析-資料處理(程式碼實戰)Python大資料
- 《資料分析實戰》選讀:大資料時代的總體和樣本大資料
- 基於python的大資料分析實戰學習筆記-pandas(資料分析包)Python大資料筆記
- 矽谷巨頭們的大資料玩法大資料
- 四說大資料時代“神話”:從大資料到深資料大資料
- 遊戲資料分析的三大實戰案例深度解讀遊戲
- 大資料分析在公安實戰中的應用(前言)大資料
- 基於python的大資料分析-pandas資料讀取(程式碼實戰)Python大資料
- 基於python的大資料分析-pandas資料儲存(程式碼實戰)Python大資料
- Oracle資料庫壞塊典型案例分析Oracle資料庫
- 公安大資料公司大資料
- LinkedIn如何用大資料實現商業價值?——資訊圖大資料
- 北京 | 資料分析公司 | 招聘渲染方向研發工程師 薪資開放工程師
- 騰訊雲大資料實戰案例大資料
- [北京] [前端、資料分析平臺開發、全棧] 矽谷遊戲公司 Magic Tavern Hiring~前端全棧遊戲
- 大資料實戰:電商該如何利用大資料獲取流量?大資料
- hadoop,spark,大資料,資料分析,實戰內部培訓視訊資料價值W+HadoopSpark大資料
- 資深Java工程師推薦新手乾貨教材 《Java Web開發實戰》Java工程師Web
- 實戰案例:醫療臨床大資料實時流日誌分析大資料
- 大資料的開放式創新:如何才能實現大資料的深發展?大資料
- 【大資料】MapReduce開發小實戰大資料
- 基於Hadoop大資料分析應用場景與實戰Hadoop大資料
- 尚矽谷大資料視訊_Shell視訊教程大資料
- Python資料分析與挖掘實戰(資料預處理)Python
- Python技術棧與Spark交叉資料分析雙向整合進階實戰–大資料ML樣本集案例實戰PythonSpark大資料
- Python技術棧與Spark交叉資料分析雙向整合技術實戰--大資料ML樣本集案例實戰PythonSpark大資料
- Python技術棧與Spark交叉資料分析雙向整合進階實戰--大資料ML樣本集案例實戰PythonSpark大資料