競技世界首席資料科學家巴川:資料科學,未來或將成為民族核心競爭力
09 月 21 日,CCF TF 第 22 期「資料驅動」主題會議順利舉辦。本次會議主席由競技世界首席資料科學家巴川擔任,會議特別邀請了來自學界與業界的多位大咖共同探討資料驅動技術在生活與生產中的應用與價值。特邀嘉賓包括:清華大學計算機系教授兼軟體所所長李國良、河北省大資料計算重點實驗室副主任劉晶、京東數科智慧城市事業部資料管理平臺部負責人鮑捷、滴滴出行高階資料科學家繆瑩瑩以及餓了麼研究員傅周宇。
大資料時代已經到來,針對當下 AI 與資料驅動的痛難點和未來發展趨勢,會議細節設定部署,以及對資料驅動相關 AI 學術青年的發展方向, 雷鋒網 AI 開發者獨家訪問了巴川主席,並在不改變原意的情況下,將採訪內容整理如下。
巴川,資深資料科學家
曾就職於中國搜尋、搜狐暢遊等,主要從事網際網路資料探勘,現任競技世界(北京)網路技術有限公司首席資料科學家
主要研究領域包括網際網路使用者行為挖掘、產品運營分析、社交網路挖掘、反作弊、風控體系、推薦系統、資料視覺化等
資料、技術,誰主浮沉
AI 開發者:作為一名資深資料科學家,你認為資料的核心價值在哪裡?
巴川:現在的資料技術發展於社會的意義遠遠大於其商業價值。資料工作本身是在大資料中尋找資料背後的數學規律,而對數學規律的掌握將是社會變革的重要動力,它可能促進整個社會的發展;尤其在當下世界格局競爭激烈的時候,大資料的挖掘與研究將很有可能成為民族的核心競爭力。
AI 開發者: 對資料探勘與處理的難點又主要體現在哪些方面?
巴川:資料探勘與處理難點主要在資料獲取階段。
一方面在於資料本身,如果你獲得的資料質量較差,得到的結果也不會太好。因此資料獲取的全面性和質量將對於研究結果有很大的影響。而關於使用者隱私問題,則是資料獲取難的另一原因。因為資料獲取可能會侵犯到他人的隱私,所以在資料的使用過程中,我們需要小心謹慎的對待資料,通常我們也會進行一定的脫敏操作,儘可能在保護使用者隱私和給使用者提供便利之間找一個平衡點。
因此總體來講,怎樣能夠既便捷又規範的獲取質量較高的資料,這個是我們在資料獲取中需要重點解決的難題。
AI 開發者:目前,深度學習的結果很依賴於資料,你認為可以從哪些方面實現改進與突破呢?
巴川:通常來講,研究人員利用資料進行深度學習的過程中主要用到了神經網路技術,而神經網路具有可驗證不可解釋的特點。因此,從技術角度來看,研究神經網路等相關技術的可解釋性,可能會是一個很好的突破點。一旦演算法可解釋性變強,它對資料的依賴就會大大降低。
不過,如果想得到更好的結果,仍然需要資料的「質」和「量」進行輔助。只有資料與演算法兩者綜合發展,才能得到更準確更完美的結果。
AI 開發者:那在你看來,技術與資料之間是一種什麼樣的關係?
巴川:兩者的關係總體上可以概括為「技術的發展有賴於好的資料,資料本身的獲取和價值挖掘也有賴於技術的發展,兩者就好比廚師與食材的關係」。當然,兩者的發展都有一個共同的目的,即幫助我們改善生活和生產。
AI 開發者:資料驅動目前主要都應用在哪些方面?這些領域的發展是怎樣的呢?
巴川:資料技術與 AI 的發展,在行業裡的表現基本是一個輪動的狀態。例如:網際網路領域現在的發展雖然可達八九十分,但它依舊在爆發式增長,其中很大原因是由於網際網路產品傳播效果好,所以有些應用能直擊使用者癢點時就會產生病毒式傳播。而金融、電信、政務等行業的資料技術應用,在國家的大力推動下,發展比較穩健,僅次於網際網路。至於另外一些傳統行業,它們的資料儘管還沒能得到很好的開發,相對於前幾個行業可能有所滯後,但這也將會是未來發展的目標之一。
圖 1 競技世界首席資料科學家巴川老師 CCF TF 大會演講現場
AI 開發者:在你所說的輪動領域裡面,你比較看好哪個領域?
巴川:目前以及未來三年內,我覺得最熱的可能還是能直接刺激人們生活的領域,即與網際網路相關的行業。然後可能是金融,金融科技領域這幾年已經蠢蠢欲動,也許它將成為資料驅動未來的黑馬之一。而對於傳統行業的升級改造,有很多的前期準備工作要做,可能需要一定的時間,才能使得資料驅動技術在這些行業得到較快的發展。
AI 開發者:我們知道競技世界在做遊戲方面也非常厲害,你認為資料驅動和遊戲之間的關係是怎樣的呢?
巴川:競技世界主要是一個網際網路平臺,已擁有超過 5 個億的足夠大的使用者量,使得跟資料相關的技術更易於推進。透過對大量資料的分析,我們可以非常直觀的去解決很多問題,包括:在遊戲發行階段怎麼樣去獲客,在運營階段怎麼樣去促活以及怎麼樣最大化創收等。因此,資料驅動和遊戲之間有著越來越緊密的聯絡。
洞見 AI 之未來
AI 開發者:大資料、機器學習、AI 相關的概念,近年來越來越火熱,你如何看待近幾年 AI 領域的快速增長?
巴川:總體上,我把大資料、機器學習、AI 都理解為關於資料的技術。這些技術透過利用資料來模仿人類的一些行為,從而改善我們的生活和生產。
因此,所謂的爆發式增長,更多的是應用領域,這屬於順應時代發展與需求的一種現象。而究其根本,這一現象主要是得益於算力的增長,即計算機硬體的發展在 AI 技術的爆發式增長方面起著極其重要的作用。
AI 開發者:那麼,你認為目前技術突破的主要難點在哪呢?
巴川:技術的發展與演算法革新有很大的關係,而技術突破的難點也主要在於演算法方面。
通常,底層的演算法更偏數學化,需要更嚴謹更強大的理論支撐進行驗證說明,相對於應用方面,理論發展則非常緩慢,往往一個革命性演算法的誕生,可能需要十幾年,甚至幾十年。
AI 開發者:面對當下大力發展應用而較少人專心投入技術研究的現狀,你是怎麼看待其中利弊的呢?
巴川:總體來看,現在是一個良性的階段。
應用的大力發展本身會帶來一定的利益驅動,以及整體社會的關注度。在這樣的大環境下,技術的發展自然能夠得到很大推動力量,進而促使理論研究的人力投入增加,最終帶動技術的發展。所以,我們也無須過分關注當下,時間或許能證明一切。
AI 開發者:目前,哪些行業在 AI 的應用中受益比較大呢?
巴川:從企業的角度來看,勞動密集型、重複性勞動較多的企業受益會比較大,因為用機器替代人可以節省很大的勞力成本,比如:客服機器人、工業機器人等。
而從人的角度來看,受益較大的是原來從事跟資料技術相關的崗位,比如:做 AI、做大資料、做深度學習方面的人才。
AI 開發者:時下深度學習也是非常火熱的領域之一,那你認為 AI 的下一波爆發高潮會是什麼時候,或者在怎樣的契機下產生呢?
巴川:無論是機器學習,還是深度學習、遷移學習、強化學習等,這些名詞都不是最重要的,它們只是隨著各種新技術而產生的代號。因此,如果從宏觀層面來談爆發高潮的話,這些資料技術一直都處於爆發式增長的高潮之中,並且這樣的狀態還將持續至少 3-5 年。
AI 開發者:那你認為 AI 應用開發的未來發展趨勢是怎樣的呢?
巴川:現在 AI 的應用主要集中在網際網路行業,但很多傳統行業,比如:礦產、化工等行業,AI 技術應用得很少。
總體來看,如果 AI 應用在網際網路方面的開發能夠達到八九十分,可能金融、政務能達到六十多分,而一些傳統行業可能還處於三四十分甚至更低的不及格階段。但往往新的領域,會有更強的爆發力,所以我認為 AI 未來的發展總體上會是一個版塊輪動的狀態。
資料科學家的神秘面紗
AI 開發者:作為本次 CCF TF 會議的召集人,整個議程的設定,包括選題、嘉賓的邀請你是出於怎樣的考量呢?
巴川:這次請的嘉賓既有學術界的大牛,也有企業界的大咖,這正和 CCF TF 的宗旨與口號——「只為技術專家」相契合。
特邀嘉賓包括學術界的清華李國良教授、河北工業大學劉靜教授,企業界的滴滴、餓了麼、京東知名網際網路企業裡的資料專家。因此,本次大會我們主要希望能夠進一步促進產學融合,增加產學互動交流。
而在議題方面,我們既有「資料驅動生活」又有「資料驅動生產」主題。其中李國良教授講的題為「AI 原生資料庫」,看似跟資料驅動關係不大,但對於資料庫的管理員來說,對資料庫的最佳化也屬於資料驅動的重點內容。而劉晶教授的議題是資料驅動傳統行業的升級改造。滴滴、餓了麼、京東的議題則是用資料驅動改善我們的生活。
總體來講,本次會議中我們既有資料驅動生活,又有資料驅動生產,還包含了資料庫系統最佳化,這是一場討論較為全面的資料驅動主題大會。
圖 2 CCF TF 「資料驅動」圓桌會議現場
AI 開發者:具備哪些能力的人,更有可能成為一名優秀的資料科學家?
巴川:我一直都帶著既嚴謹負責的態度對待資料又樂觀活潑的心態去使用資料。這不僅能夠保證結果的合理性和嚴肅性,還能幫助你獲得一些非常有價值的出乎意料的結果。
同時,數學和程式設計都是資料科學中很重要的內容。數學基礎常常能夠決定你將來走多高、多遠;而程式設計能力則能夠更直接的實現創意。在很多資料技術全面開發時,透過動手能力和程式設計能力去實踐自己的想法,尤其是快速實現自己的想法,可能會讓你很大程度上受益。
AI 開發者:我們都知道,除了資料科學家的身份之外,你還是眾多名校的老師,你是怎麼處理這兩個身份之間的關係呢?
巴川:用四個字概括,即教學相長。
一方面,我在企業做資料科學時會積累很多專案經驗,將這些經驗傳授給學生的過程本身就是很快樂的。而另一方面,於我而言,學生給我的啟發以及眼界上的拓寬也讓我受益頗豐。這既是一個教學的過程又是一個同行交流的過程,所以我可能在一個學期內,教給他們十幾種演算法和案例,他們則每個組反饋給我一個案例,進而增加我的案例庫,在這一過程中,我也得到了很快的成長。
AI 開發者:對於 AI 開發者或者 AI 專業的學生,你有什麼想要傳達給他們嗎?
巴川:成功其實是必然和偶然的結合。少一點功利心,多一點童心,報著好奇的探索欲去看待這個世界,再將自己的技術運用到該用之處,你就很有可能在大資料浪潮中,翻出屬於自己的浪花。有時候,儘管新潮是很大的誘惑,但是隻有既保持對這個行業的嚴肅性,同時又保持自己的初心,才能愈發長遠地發展下去。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2658680/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 專訪競技世界首席資料科學家巴川:不要辜負這個時代資料科學
- 【資料科學家】如何成為一名資料科學家?資料科學
- Python或將成資料科學家首選語言Python資料科學
- 如何成為資料科學家? - kdnuggets資料科學
- 魅族屈躍輝:資料安全或成核心競爭力!
- 資料科學家或將取代業務分析師? - Michael資料科學
- 未來資料科學家必備的【核心演算法】與【常用模型】資料科學演算法模型
- 資料工程師、掌握資料分析,成為資料科學家、資料庫遷移專家工程師資料科學資料庫
- 藝初營銷:軟實力將成為未來企業“攻堅戰”的核心競爭力
- 資料科學家已死?AutoML使得資料科學更加普及化 - enterpriseai資料科學TOMLAI
- 資料科學資料科學
- 歐洲科學家計劃建立大型人工智慧中心來與中美競爭人工智慧
- 公民資料科學家的侷限性資料科學
- 業界 | 資料科學家“恐怖故事”資料科學
- 資料科學家的命令列技巧資料科學命令列
- 圖靈獎獲得者:資料科學家或將取代業務分析師?圖靈資料科學
- 人工智慧,機器人技術和資料科學家將在2020年成為新興工作人工智慧機器人資料科學
- CRM系統:助力資料服務企業,打造核心競爭力
- 未來車企的生存核心是什麼?計算力=競爭力
- 除Kaggle外,還有哪些頂級資料科學競賽平臺資料科學
- 競賽▍人工智慧/資料科學比賽彙總 2019.2-2019.3人工智慧資料科學
- 為什麼資料科學家應該開始學習Swift?資料科學Swift
- 資料科學即將迎來“無程式碼”時代資料科學
- 進階指南:如何從資料分析師轉型為資料科學家?資料科學
- 什麼是全棧資料科學家?全棧資料科學
- 資料科學家需要的基礎技能資料科學
- 資料科學家最需要什麼技能?資料科學
- Web開發與資料科學家:誰在統治Python世界?Web資料科學Python
- 成為資料科學家應該知道的10種機器學習演算法資料科學機器學習演算法
- Mosaix首席科學家勞逆:弱監督學習是未來發展趨勢AI
- 資料科學、資料工程學習路線資料科學
- Spotify如何改進資料科學家的資料發現?資料科學
- 通往資料科學之路資料科學
- 這七家BAT公司,誰家資料科學家更多BAT資料科學
- 校招 | 圖森未來首席科學家王乃巖教你寫簡歷
- 重磅!科華資料喜獲2021年全球UPS競爭戰略創新與領導力獎
- 資料科學50年,資料科學家是否依然是21世紀最性感的職業?資料科學
- 資料科學的原理與技巧 一、資料科學的生命週期資料科學