機器之心報導
作者:張倩
AI 技術需要開源、開放,對於這一點,產學研各界已經達成了共識,政府也在全力支援國內開源生態的建設。
長期以來,開源開放的研究氛圍一直是促進人工智慧領域發展的關鍵因素。正是因為學界和業界參與者不斷和快速地公開自己的研究結果和程式碼,人們才能夠及時掌握相關方向的最新進展,並在學術環境之外開展自己的研究。
在百度與中國科協學會學術部共同主辦的 2020 中關村論壇—— AI 開源創新與產業智慧化平行論壇上,開源、開放再次成為了中心話題。在這次論壇中,中國工程院院士、浪潮首席科學家王恩東,百度技術長、深度學習技術及應用國家工程實驗室主任王海峰,百度集團副總裁、深度學習技術及應用國家工程實驗室副主任吳甜,小米集團副總裁、小米集團技術委員會主席崔寶秋,天津飛騰資訊科技有限公司副總經理張志群等十餘位產學研各界頂級專家帶來了 AI 開源生態構建、產業智慧發展趨勢以及 自主核心 AI 技術應用價值成果的深度分享。
在談到開源創新為何如此重要時,王海峰表示,人工智慧高速發展,已成為新一輪科技革命和產業變革的重要驅動力量。這其中,人工智慧技術的開源創新起到了很大的作用。 一方面,開源創新可以加速技術的創新發展,不斷擴充人類認知邊界和技術邊界;另一方面,所有開發者都可以基於開源開放的成果開發自己的專案、產品及業務,更便捷、高效、安全地推進技術創新與應用。
百度技術長、深度學習技術及應用國家工程實驗室主任王海峰在論壇中致辭。
2012 年,AlexNet 的成功吸引了學術界和工業界對於深度學習的廣泛關注。如今,深度學習已經成為 AI 研究的主流方法。在這場產業智慧化升級之戰中,深度學習自然也成了「商家必爭之技」。然而,深度學習應用的高門檻也讓很多企業望而卻步,很多工作都是在「重複造輪子」,創新無從談起。
作為「智慧時代的作業系統」,開源深度學習平臺的出現徹底改變了這一現狀。
開源開放的深度學習平臺有效地降低了深度學習技術應用門檻。作為百度自主研發、國內最早開源開放、功能完備的產業級深度學習平臺,飛槳一直備受矚目,而且已經大規模應用於通訊、電力、城市管理、工業、農業、林業等眾多關乎國計民生的領域,加速推動千行萬業實現智慧化。
在這次論壇中,吳甜做了主題為 「飛槳推動產業智慧化之路」的演講,系統介紹了開源開放的飛槳在產業智慧化升級大潮中所扮演的重要角色。
百度集團副總裁、深度學習技術及應用國家工程實驗室副主任吳甜在論壇中演講。
長期致力於小米技術研究與應用的崔寶秋也在本次論壇上分享了他的觀點《智慧新時代 擁抱開源》。他指出,雲端計算與大資料時代離不開開源,AI時代更是與開源相互促進。
小米集團技術委員會主席崔寶秋在論壇中演講。
飛騰公司副總經理張志群#發表了題為《飛騰芯算力 智慧新引擎》的演講。他表示,新基建帶來了萬億級市場,也為產業智慧化升級帶來許多機會,更給資訊產業提出了算力、協同、安全、應用這四大考驗。其中,自主可信、內生安全,是新基建的執行保障;開放聯合、應用創新,是新基建的落地關鍵。
天津飛騰資訊科技有限公司副總經理張志群在論壇中演講。
國內首個開源開放的產業級深度學習平臺——百度飛槳
飛槳是百度自主研發,國內首個開源開放、技術領先、功能完備的產業級深度學習平臺,2016 年正式開源。
在深度學習模型開發、訓練、預測和部署等方面,飛槳已可比肩 TensorFlow、PyTorch 等國際主流框架,並在多項技術上有優於後者的表現,打破了國內的 AI 開發者過度依賴國外開源深度學習框架的侷限,有助於進一步培育自主可控的 AI 產業生態。
在論壇中,吳甜介紹說, 飛槳目前有四個方面的領先技術:開發便捷的產業級核心框架、支援超大規模深度學習模型訓練、多端多平臺部署的高效能推理引擎以及覆蓋多領域的工業級模型庫。
最近,飛槳又迎來全新升級。從技術層面出發,此次更新可形容為「動靜統一、軟硬融合」。在硬體上,飛槳目前已適配 22 種晶片型號,覆蓋 15 家硬體廠商,對國產硬體的支援超過 TensorFlow 和 PyTorch;軟體上,動態圖功能升級實現了動靜態的結合,讓使用者更容易開發模型;全面升級的 API 體系,則對於開發者更加友好。目前,飛槳可以與華為等硬體進行深度配合,讓 AI 應用收穫更強勁的效果,加速人工智慧技術的進一步普及。
如今,飛槳已經應用到金融、工業、城市治理等多個領域。
在金融風控領域,使用飛槳可以將信貸風險判斷準確率提升 21%,飛槳中的語義理解模型 ERNIE 透過學習大量的文字和知識實現了語義理解效能的大幅提升。
在計算機視覺領域,飛槳已經開始助力工業質檢,比如筆記本外殼檢測、總裝車燈檢測,幫助工廠在大面積的產品或小部件中找出微小的瑕疵。
在智慧城市中,飛槳可以應用於城市治理、施工車輛追蹤,車輛違章監測等場景。
飛槳的成功秘訣:開源
和 AI 領域的其他技術一樣,飛槳的成功,自然也離不開開源。
作為開源軟體,飛槳一直在建設開源社群。目前,飛槳已經凝聚了 230 萬開發者,創造了 31 萬個模型,專案數量總體超過 4.7 萬,並且有多個專案登頂各大榜單。飛槳推出的飛槳開發者 PPDE 計劃也共建了開源社群,組建了 22 個飛槳地方社群,100 多個高校社群。
開源給飛槳的開發所帶來的益處良多。
首先,開源的環境對平臺的開發提出了更高的要求。開源以後,社群裡的開發者非常多,工程師把程式碼亮出來以後,大家都能知道你是如何設計的,以及你的程式碼、文件有沒有問題。這就對整個程式設計的易用性、API 的完備性提出了新的要求,這些要求以前在不做開源時不會考慮太多。
其次,開源是幫助構建生態的良好方式。深度學習框架的上下游生態非常複雜,需要和晶片、計算機系統做對接。在飛槳開源的生態系統中,第三方生態貢獻扮演了很重要的角色。在飛槳這個專案中,很多的開發不是百度工程師做的,還有其他人在基於這個做出新的專案和更多的貢獻。
在論壇中,王海峰表示,百度十年以前開始全面佈局人工智慧的時候,就是本著開源、開放的精神。早在 2012 年,百度就開放了翻譯的 API。如今,百度翻譯每天的翻譯量已經達到了 1000 億字元。2013 年,百度又開放了語音平臺,現在每天的呼叫量超過 150 億。
2016 年,在開源飛槳的同時,百度也開放了百度大腦的很多 AI 能力。發展到今天,百度大腦每天的呼叫量超過 1 萬億,很多開發者都在使用這些工具推動自己的業務。
與此同時,企業對於開源的擁抱程度也是在持續增加的。
一方面,企業自身所開發的軟體平臺、工具正在進行越來越多的開源工作,有 95% 的受訪者認為企業開源是至關重要的。另一方面,企業在使用開源軟體的時候,預期也在一直在發生變化,77% 的受訪者表示他們希望增加對企業開源軟體的使用。這些都說明,開源社群是在持續發展的,這反過來又會促進飛槳等開源平臺的發展。
核心問題:如何建好生態?
在主題演講之後,百度深度學習技術平臺部高階總監馬豔軍主持了一場圍繞「AI 開源創新賦能產業發展」話題的高峰對話。工商銀行大資料人工智慧實驗室副總經理黃炳、中國聯通研究院人工智慧總監廖軍、中車研究院智慧產品負責人田寅、Gartner(高德納)研究諮詢高階總監張桐、百度 AI 技術生態部總經理劉倩等嘉賓展開深度的行業交流。
田寅表示,開源工具在傳統企業發揮著非常重要的作用,它們可以幫大家更快地上手深度學習,更快地領悟到新技術。廖軍認為,這種好處其實是雙向的,在開源工具賦能傳統行業的同時,後者其實也充當著貢獻者,在用的過程中發現問題,幫助開發者打磨這些工具,雙方一起建設一個完善的生態。
在整個論壇中,「生態」都是一個高頻詞,開源本身就是要建立一個生態體系。那麼,如何建好這個生態體系,找到利益互通的點,避免惡性的競爭是一個值得思考的問題。
張桐認為,在資料方面,我們需要用聯邦學習等技術解決資料孤島問題,讓資料真正為我所用;在算力方面,要建立一種共享機制,幫助中小企業用上 AI。
對於資料孤島問題,黃炳補充說,其實行業裡面關於聯邦學習的產品不是沒有,而是過多。因此眼下的問題其實是聯邦學習缺乏規範性。他認為,要讓中小企業用上 AI,核心其實是搭建平臺,把中小企業接觸 AI 的門檻降下來。
眾嘉賓表示,目前業界開源生態與環境正在隨著 AI 大規模落地的進展快速構建。在業務實踐中, 類似飛槳這樣成熟可靠,已被大量產業級應用驗證的開源平臺,不僅為技術開發和企業創新不斷降低著門檻,更為整個產業智慧化升級不斷加速。
「AI 開源創新賦能產業發展」 高峰對話。
對於百度做開源的核心思路,百度 AI 技術生態部總經理劉倩解釋說:「做開源開放的時候,我們有一個非常明確的判斷,就是人工智慧最後的產業級應用一定不是由某一家企業來主導完成的,最後一定會形成一個角色分明、上下游的這樣一個產業級的生態。所以從那個時候開始,我們去分享開源平臺,去做百度大腦開放平臺,其實都是在做最底層的基礎設施,希望能夠給各行各業提供從資料、演算法、工具到平臺的支援。」
在對話現場,Gartner 還發布了最新調研報告《飛槳推動中國產業智慧化之路》,從深度學習趨勢判斷方面著重分享了飛槳在推動中國產業智慧之路中形成的自我定位、技術優勢、技術佈局以及生態佈局等。