前瞻打造超級「怪獸」,商湯想要馴服AI長尾

机器之能發表於2021-07-11

圖片

目前用人工智慧(AI)炫技的展示已經被行業解決方案替代。人工智慧改變各個行業已經全面展開,AI從天上到了地下,將改變身邊的每一件事、每一個行業。
要加速AI的滲透行業角落,AI賦能成本必須降下來,使用門檻必須降低。商湯認為,整個行業需要通用性更強的模型,用一個模型支撐更多的任務,在通用模型下再去做小的場景模型,成本就會降低。不過,模型的通用性越強,需要的資料、算力往往也越多,這就是商湯建設 AI 大裝置的底層邏輯。
2020年4月,國家發改委在例行釋出會上首次明確「新基建」範圍,將資料中心和智慧計算中心都作為算力基礎設施,納入新基建當中。智慧計算中心也成為近期各家中國科技企業都在力推的專案。
在去年的世界人工智慧大會上,商湯宣佈,將在上海佈局人工智慧平臺,整體投資50多億元,大部分由商湯自己出資。與傳統IDC不同,這個超算中心要滿足人工智慧時代高互動高通量的需求。

撰文 | 吳昕

「我非常喜歡這個AR導航小功能,真的非常便利。」一位香港朋友看到谷歌推出AR室內導航服務時,非常興奮。 

對於他這樣的路盲來說,進入城市綜合體消遣不啻於一場挑戰。他曾因找車而迷失在武漢某大型城市綜合體的地下車庫(共三層);也曾因上海某商場指示不明找不到附近洗手間,抱怨不已。 

這一次,「悲劇」不會再在成都國際金融中心「上演」。從地下停車場到商場內恣意樓層,只需翻開「ARgo增強實景導航」,用手機掃描周圍環境,便可經過AI視覺瞬間辨認定位商湯科技對成都IFS多達46萬平方米的區域進行了大尺度三維地圖重建,結合實時定位和地圖構建(SLAM)等技術,定位成功率高達99%,定位精度達「釐米」等級,單次時長達「毫秒」等級,且不會呈現偏移、閃耀等狀況。 

 如果按照傳統定製化服務來做,成本會非常高,甲方很可能因為價格望而卻步,只有降低成本、提升部署效率,甲方才會買單,否則,他們只會優先考慮頭部需求。 

這一切背後最大功臣,正是商湯前瞻打造的人工智慧基礎設施——商湯 SenseCore(「AI大裝置」)。 


 一 56億的超級「怪獸」 

在上海臨港新片區,矗立著商湯智算中心(Artificial Intelligence Data Center,AIDC)。這座宛若晶片的建築佔地面積約5.8萬平方米,總投資約56億元,僅用168天就順利完成結頂,預計於2021年底投入試運營。 

圖片商湯科技人工智慧計算中心效果圖

與傳統網際網路資料中心(IDC)不同,這個超算中心要滿足人工智慧時代高互動高通量的需求。專案全部建成後AI計算峰值速度將達到3740 Petaflops(1 petaflop等於每秒1千萬億次浮點運算)。 

算力可以支援同時接入850萬路影片,同時滿足四個超2000萬級人口的超大規模城市使用;1天內可處理時長相當於23600年的影片,相當於從舊石器時代晚期不間斷錄製到今天的長度。 

強大算力對於做演算法來說就是一灶猛火,至於飯菜燒的怎麼樣,一定程度上取決於火候的控制。目前,人工智慧在技術上已經達到非常高的水平,一個重要瓶頸正是算力跟不上產業發展所需。 

不過,這座 AIDC 僅是商湯「AI大裝置」的一部分,而非全部。和普通程式設計不同,演算法研發是一個系統工程,需要能夠協同最佳化資料、演算法、算力的平臺級產品。「大裝置」全貌也因此包含三層。 

圖片

算力層,主要以商湯在建的智算中心(AIDC)為基礎,相容AI晶片和AI感測器的強大能力。 

平臺層,除了資料平臺,還整合了商湯原創的深度學習訓練框架、推理部署引擎及模型生產平臺,打通了從資料儲存標註、模型訓練部署、業務系統上線的全鏈路、批次化過程。  

演算法層,包含各種演算法工具箱,不僅有城市交通、園區等高頻應用場景演算法,還有火災、垃圾檢測等長尾低頻的演算法。 

SenseCore還包含一個工業級演算法模型生產平臺,可將訓練出來的大模型應用於各個不同的行業和場景。 

「AI大裝置」可以把整個人工智慧演算法的生產過程變成流水線,可以按照工業化的流程來批次生產演算法。商湯利用這個體系已經生產超過17000個模型,在各個領域都有應用。 

不過,「AI大裝置」出爐絕非一蹴而就。商湯從2016年開始就做了很多探索,嘗試做重做深,碰硬體碰底層。  

例如,成立初期,商湯就開始搭建底層演算法平臺。商湯認為,自身底層演算法平臺的完善保證其在進入任何一個新的行業時,可以將投入產出比降到最低,用最低的成本達到最好的效果。 

當時,商湯甚至在總部辦公大樓內,犧牲辦公空間搭建原型機的核心機房,總投資近7億元,進行專案預研。 

「AI大裝置」之於AI產業,猶如福特流水線之於工業。這條「AI流水線」可以實現不同場景的演算法模型的底層抽象,以模組化平臺套件打造通用型服務平臺。 

特別是,針對AI落地中更長尾的客戶和場景,能夠在組合不同演算法套件的基礎上完成新場景的定製,以低邊際成本實現對新場景的規模化覆蓋。 


 二 馴服長尾,SenseCore 的底層邏輯 

在商湯看來,這是面向未來必須邁出的一步。任何一家科技企業,不論做什麼,最終體現的還是一個商業化能力。 

目前視覺AI市場公司的主要業務大致可以分為三大類:硬體、定製服務以及軟體業務。AI軟體業務毛利最高,但這類業務佔比往往最小。雖然複製性不強,服務成本居高不下,但是,為政府、央企以及其他大型企業完成的定製化服務業務佔比最大。 

許多自然系統的資料通常凌亂、長尾、不可預測甚至高度熵,由此引發的工作量被證明是讓AI業務難以經濟起來的主要原因。 

例如,在工廠場景下檢測零部件、在醫療影像中檢測病理特徵,本質上這些都是檢測,但同樣的演算法在不同場景落地,會演化出非常不同的版本,會給技術積累產生很大的挑戰。 

要獲得準確結果需要大量資料、實驗和引數,而任務和場景稍有變化,就需要重新收集、標註資料,訓練模型。 

特別是,2020年政府提出新基建戰略,新基建推起新一波AI業務浪潮。商湯在多個城市落地的智慧城市治理平臺,與各地博物館合作推出的智慧遊覽,與醫院推出的智慧診療等專案均屬於新基建專案。 

當業務進入新基建業務語境時,城市長尾資料分佈下的目標檢測效能問題更給傳統單一任務、通量、引數規模更低的「基礎設施」「力不從心」。 

以前演算法效能的提升靠人工標註,現在幾十億甚至上百億的量級的資料量,如何還能靠人工標註? 

識別打傘的人、人在車後搬箱子、樹倒在路中央等零碎、極端的長尾場景,足以難倒無人車;如何管理共享單車違停,垃圾亂投放,也是需要考慮的細節問題。 

在城市管理的過程中,需要人工智慧對各種不同組合進行學習,並建立反應策略。商湯CEO徐立曾解釋說,每個人平均每天接觸600個物體,僅考慮3種物體的組合,3500多萬種組合,不同的場景組合可能理解識別成完全不同的結果。  

如何高效且價格合理地解決這些大量細節問題,被商湯視為人工智慧深入行業最重要的一點,而這又需要新一輪的突破和創新。 

本質上,長尾猶如一把衡量問題複雜性的尺子,暗示我們要實現AI生產自動化。許多領先的機器學習組織也會執行(甚至設計)自己的機器學習叢集。 

在商湯看來,這個時候,整個行業需要通用性更強的模型,用一個模型支撐更多的任務。模型的通用性越強,需要的資料、算力往往也越多,這就是商湯建設 AI 大裝置的底層邏輯。 

「解決特定行業中的多場景長尾演算法需求,需要用足夠多的資料、足夠大的算力,去訓練一個足夠大的通用模型,然後在通用模型下再去做小的場景模型,成本就會降低。」商湯科技聯合創始人楊帆曾說。 

縱觀近些年AI研究「風向」,呈現出從「大煉模型」邁向「煉大模型」的趨勢。 

透過設計先進的演算法,整合儘可能多的資料,匯聚大量算力,集約化地訓練大模型,供大量企業使用。這些模型的泛化能力強,可用於多種不同、內在原理迥異的任務。 

例如,文字生成模型 GPT-3,有著天文數字級別的1,750億引數量,資料集總量是之前釋出的GPT-2的116倍,是迄今為止最大的訓練模型。GPT-3 主打文字生成,泛化能力強,可以用於多種任務。除了寫作畫圖、敲程式碼、玩遊戲等,還被網友們玩出了50多種新用法。 

更加值得注意的是,這些史無前例般巨大的訓練引數量,比如1.75萬億引數這個級別,即使採用最新的專門深度學習計算硬體和分散式計算方法,也非常艱難,對基礎設施提出了更嚴苛的要求。比如,硬體晶片、還有超級計算機的計算力量。 

AlphaFold2 在短短几個小時內就確定了蛋白質的三維結構,為了訓練好這個演算法,Alphafold採用了具有17萬個蛋白質結構的資料庫,使用約128個 TPUv3 核心(相當於 100-200 個 GPU)執行了數週。 

商湯於上海臨港建設的新型人工智慧計算中心是目前亞洲最大的人工智慧算力中心,作為參照, GPT-3完整訓練一次需要3.14E23次浮點運算,而商湯臨港AIDC的算力僅在一天內即可完成。 


 三 潛力初綻 

如今,這個 AI 大裝置已經開始發揮它的作用。 

藉助大裝置,商湯已經在超大模型技術研究方面取得一定成績。例如在計算機視覺的卷積神經網路(CNN)領域,通常模型引數都在 1 億以下,但商湯的深度學習訓練框架 SenseParrots 能支援 50 億引數超大視覺模型的訓練。AIDC 完全投入使用後,計劃支援的超大視覺模型訓練引數可達更高的數量級。

6月,成都國際金融中心(成都IFS)推出了全國首個全場景城市綜合體AR導航。不僅首次實現從地下停車場到商場內所有品牌門店、服務設施以及配套寫字樓、酒店、服務式公寓的全程AR導航導覽,也為品牌租戶提供包括AR禮券、新品推薦、主題活動推廣等豐富的營銷功能,還為網紅地標大熊貓戶外藝術裝置 I AM HERE設計了專屬打卡路線。 

圖片

圖片

無論是通用性還是可擴充性,商湯的解決方案都具備強大延展能力,可在短時間內快速部署。其中,資料平臺有助於降低資料的生產成本,而生產平臺+訓練框架+部署的一體化能力,可以實現模型的快速選型、最佳化和封裝。藉助AIDC算力,可以極大提升服務效率。 

據介紹,平臺層同時融合了商湯原創打造的演算法訓練框架SenseParrots,能高效利用GPU叢集算力,訓練單個大模型時可以在千卡上取得超過90%的加速效率,達到單卡900倍的效果,遠高於開源方案。 

商湯聯合創始人林達華曾透露說,「我們幾乎所有的研究工作都是在這個大裝置的基礎上進行的。」「它為做演算法研究的同學提供了充足的算力,使他們能夠快速地進行實驗試錯。」此外,大裝置中所積累的實用工具也縮短了創新的驗證週期。 

除了「個人生活」,在城市治理方面,AI大裝置也正推動治理由人力密集型轉向人機互動。 

圖片

2020年,上海長寧區和商湯科技試點「AI+一網統管」。透過AI場景分割等技術將區域內1000個攝像頭轉化成為智慧感知神經元,對中心城區最集中的垃圾暴露、單車亂停放等事件實現秒級發現,推送給網格員的政務微信進行立案。 

處置以後,在規定時間內,攝像頭對發生地點再次檢測,若無問題即可上報平臺完成結案,完成了整個事件處置流程的智慧化。 

圖片

系統執行以來,網格使用者數達到100餘人,結案率達到70%,超過一半的事件在4小時內處置完成,最快可實現20分鐘完成從識別到處置。 

商湯還與恆大物業、藍光嘉寶合作,推動社群「從0到1」智慧化升級,解決物業管理降本增效的難題。

圖片

圖片

例如,針對近年來居民更為關注的電瓶車進電梯、高空拋物等不文明行為,恆大物業集團、恆大高科技集團透過商湯提供的人工智慧技術實現了有效管理。 

商湯還與瑞士迅達電梯簽署戰略合作,打造自動扶梯安全智慧響應系統,提供覆蓋自動扶梯入口、扶梯區域和扶梯出口的全場景安全管理輔助。 

圖片

例如,在自動扶梯區域,發現有乘客摔倒時系統可及時告警以便停梯,或對逆行等不安全行為進行實時提示。如果系統檢測到扶梯區域內無乘客,還可通知工作人員進行遠端停梯,減少運營成本。 


 四 走向開放 

高通公司業務擴充全球副總裁沈勁曾說,像商湯科技這樣的巨頭,它們將會成為並且正在成為一個人工智慧平臺級的公司,它將是「發電廠」,中小創業公司「用電」就好了,不需要自己發電。 

麻省理工學院(MIT)電腦科學和人工智慧實驗室(Computer Science and Artificial Intelligence Lab)的研究員尼爾·湯普森(Neil Thompson)和同事分析了 1,058 篇 AI 論文,發現機器學習的計算需求遠遠超過硬體改進或模型訓練效率。在這條道路上,系統有朝一日將花費數億甚至數十億美元來訓練——並且還有其他成本。 

「使用更多 GPU 的問題在於,每次 GPU 數量增加一倍,成本就會增加一倍。」湯普森說。 

在從事高階深度學習工作的大學中,「計算機能力較弱的大學所佔比例已經越來越小」。「仍然有相當多的人可以玩這個遊戲,但是隨著計算負擔的增加,玩家的數量越來越少。」 

因此,從整個社會的角度來說,AI 基礎設施將逐漸從一個企業內部的平臺,發展為逐漸提供開放服務,並最終演變成一個面向整個生態、整個社群的具有公共性質設施。

這也正是商湯走向開放的底層驅動力。要想讓AI賦能產業,不能只靠AI公司一己之力,而是應該開放整個產業生態,讓更多人參與到AI改造傳統行業的課題中去。

商湯不僅開源演算法,也推出了開源生態,OpenMMLab開源演算法體系已在GitHub上獲得37,000+顆星。以超算中心的龐大算力為基礎,商湯未來可以有能力為客戶及合作伙伴輸出更多的底層AI核心能力。

圖片

包括晶片、AI 超算平臺、深度學習平臺等基礎層,在這方面,中國還有很長的路要走。未來,商湯也不會專注於某一個場景中解決問題,一定專注底層的原創能力。這也是商湯麵向未來的長線核心競爭力,而建立這種長線競爭力的時間週期,則構成壁壘和護城河。

始於幾十年前的人工智慧創新,終將超越這個時代。無論是AIDC還是開源生態,都只是商湯未來星辰大海的一個開始。

相關文章