ImageNet「眾包」成就偉大資料集,「昇騰眾智」創新AI開發模式

機器之心發表於2021-03-26
2009 年,由知名科學家李飛飛發起,來自全球 167 個國家近 5 萬名工作者以眾包的方式,透過三年合作努力,完成了日後觸發人工智慧領域發展浪潮的偉大資料集 ImageNet。資料規模巨大,標註錯誤極低,ImageNet 釋出十餘年以來,已成為淬鍊影像處理演算法不斷升級的試金石。2010-2017 連續開展八年的 ImageNet 全球挑戰賽,推動了物體識別平均準確率等 AI 領域關鍵指標不斷提升,更讓深度學習演算法自 2012 年在此舞臺之上大放異彩,進一步引發了人工智慧領域的革命。

眾所周知,ImageNet 包含 1500 萬張帶標註的影像,工程十分浩大。幫助李飛飛完成這一壯舉的,是當時剛剛興起的社群概念——眾包。可以說,眾包一直在人工智慧領域扮演著重要角色,一定程度上加快了這一領域的歷史程式。

ImageNet「眾包」成就偉大資料集,「昇騰眾智」創新AI開發模式

但與此同時,社群並沒有止步於眾包,而是向前又走了一步。昇騰計算產業的成員企業華為,提出了一種新的模式——眾智,匯聚企業、高校、科研院所等組織的力量,做硬核開發。2021 年 3 月 18 日,昇騰眾智計劃正式上線。

眾智類似於眾包,但又不同於眾包。眾包是繁複的人力投入,而「昇騰眾智」意在透過「硬體開放、軟體開源、使能夥伴」的方式,激發開發者的智慧,在網路模型開發、運算元開發以及行業參考設計開發等幾類專案上進行創新。

此外,「昇騰眾智」計劃還關注後續的人才培養以及開放平臺、社群的建設和發展,這就改變了傳統眾包「交付即終點」的模式,對開發者的個人成長甚至整個社群的發展都有著更加深遠的意義。

ImageNet「眾包」成就偉大資料集,「昇騰眾智」創新AI開發模式

為何眾智?如何眾智?

3 月 13 日,國家釋出了「十四五」規劃綱要。綱要指出,「十四五」期間,我國將透過一批具有前瞻性、戰略性的國家重大科技專案,帶動產業界逐步突破前沿基礎理論和演算法,其中就包括深度學習框架等開源演算法平臺的構建以及學習推理決策、影像圖形、語音影片、自然語言識別處理等領域的創新與迭代應用。由此可見,加快國內人工智慧的發展在國家戰略層面正變得越來越重要。

過去幾年,昇騰計算產業已構建起完整的全棧 AI 軟硬體平臺,包括基於昇騰架構的系列硬體,異構計算架構 CANN、深度學習計算框架 MindSpore 等軟體平臺。透過上述平臺構建的AI基礎設施,涵蓋綱要中提到的影像、語音、自然語言處理等多項技術,可以加快醫療、能源、交通、製造等多個行業的智慧化升級。

AI 模型和基礎軟體都是高度依賴生態建設的專案,無法依靠單一力量來完成,需要匯聚開發者,共同打造昇騰計算產業生態。

在過去的 2020 年,昇騰社群從學、練、用、考、賽等維度為開發者提供了完善的軟體資源、專業培訓、技術支援、生態政策和產品方案,上線了 50 多個開發者系列課程、1008 本學習資料、100 + 工具與樣例、100 + 模型,MindSpore 開源開發者已突破 10 萬 + 人。

雖然已經取得了一些成績,但要想加快這一程式,昇騰需要整個社群的力量來共同託舉,這也是「昇騰眾智」計劃誕生的初衷。

那麼如何「眾智」呢?

具體而言,「昇騰眾智」主要涉及的是異構計算架構 CANN 運算元開發、主流深度學習網路模型(基於 MindSpore、PyTorch 等)開發和行業參考設計開發等。

這些需求都以專案的形式釋出在「昇騰眾智」的官方頁面上,每兩週重新整理一次。近期公佈的 140 個專案需求包含 MindSpore 資料增強運算元、MindSpore 模型等,涵蓋文字、影像、影片、自然語言、目標檢測等多個領域。

ImageNet「眾包」成就偉大資料集,「昇騰眾智」創新AI開發模式

開啟「專案任務書」,我們可以看到專案的具體細節,包括任務描述、知識背景要求、任務要求、任務清單、開發指導等內容。對該專案感興趣且符合要求的開發者可以填寫與自身情況相對應的申請表。

和「眾包」、「外包」不同的是,在「昇騰眾智」計劃中,參與任務的開發者和昇騰之間並不是「冷冰冰的業務關係」,而是一種並肩作戰的合作關係。如果你在開發中遇到問題,你可以隨時向昇騰的專家尋求幫助。這種幫助包括但不限於硬體、軟體、技術指導和答疑等。

群策群力,多方受益

前面說到,在「昇騰眾智」計劃中,開發者與昇騰之間是一種並肩作戰的合作關係,合作的目的是建立一個強大的生態和社群。這就意味著,參與「昇騰眾智」的開發者甚至整個社群都將從中受益。

開發者包含高校師生、科研機構研究者、企業開發團隊等多個群體。對於這些群體來說,他們收穫的不僅僅是專案交付後的獎金激勵和專案開發期間的算力資源支援,還有昇騰頒發的榮譽證書(優秀開發團隊和個人將受邀參加華為旗艦大會)以及華為招募引進人才的優先權等。

其他的潛在收益還包括專案經驗積累、創新研究專案合作以及行業影響力的提升等。

以高校為例,高校是一個偏重學術的環境,「昇騰眾智」將更多的真實專案帶進校園,使得學生有更多的機會接觸真實的業務場景,得到業內專家的指導,從而加深對於 AI 的理解,沉澱更多的實踐經驗。

科研院所和企業有所不同。科研院所匯聚了一大批優秀研究者,但在算力、場景擴充套件、科研創新等方面也需要一些外部支援,「昇騰眾智」恰好可以在這些方面提供支援,滿足科研機構在多個方面的科研需求。企業所在的行業往往需要配套的行業參考設計,在昇騰的技術支援下,企業可以更快地開發自己行業所需的參考設計,提升自身的行業影響力。

除了這些,「昇騰眾智」對於整個人工智慧社群也有很重要的意義。一方面,這些專案開發完成後將在昇騰社群開放,供所有開發者下載使用,免去開發者重新寫程式碼、訓練模型的麻煩,加速社群的發展程式。另一方面,昇騰社群、MindSpore 社群與其他開源開放社群可以藉助這一專案建立緊密的聯絡,為高校、科研機構、企業和開源社群的成員搭建一個廣闊的交流、合作平臺,共同加速 AI 社群的發展。

以上幾點在本月初啟動的「OpenI 啟智 & MindSpore 集結號」活動中已經有所體現。這一活動由 OpenI 啟智社群和 MindSpore 社群共同舉辦,旨在集中高校開發者合作開發 MindSpore 高效能模型(模型眾智)。

ImageNet「眾包」成就偉大資料集,「昇騰眾智」創新AI開發模式

中國工程院院士、鵬城實驗室主任、北京大學博雅講席教授高文在「集結號」活動中講話。

其實,早在「集結號」活動之前,「昇騰眾智」就已經開始了一些小規模的探索,這些探索為計劃的正式上線蓄積了力量。自去年啟動昇騰眾智計劃以來,已有浙江大學、上海交通大學、西安交通大學、中國科學院等超過 40 所高校和科研機構參與其中(排名不分先後)。他們已經完成 484 個 PyTorch 運算元分析、368 個運算元開發、15 個 MindSpore 模型交付和 2 個 PyTorch 模型交付,行業參考設計的眾智活動也已經完成試點。

十幾年前,ImageNet 讓我們看到了群體力量的偉大;如今,昇騰不止要利用這股力量,更想要挖掘其中的「智慧」,創造一種新的 AI 開發模式。

目前,「昇騰眾智」的初步目標是透過線上、線下兩種方式聚集 200 + 團隊、2000 + 開發者。

相關文章