如同他的演講題名「AI,在實踐中前行」,這一屆人工智慧大會與半年前在舊金山舉辦的英特爾首屆第一屆 AIDC 相比,在展示硬體產品與工具、闡釋其開發理念的基礎之上,英特爾引入了更多為特定應用場景高度定製的案例、邀請了更多來自各行各業的合作伙伴進行經驗分享。
換句話說,他們將那「4%」請來了現場。
於是我們知道了,神經計算棒在給開發者的終端裝置增加一些訓練算力之外,更重要且不可替代的應用方式是支援部署在終端的深度學習模型的測試和原型製作,成為連線模型開發與量產階段的橋樑;而 OpenVINO 這個看起來只是框架與裝置之間的「交叉編譯器」的工具,在工廠進行大規模部署的時候,究竟能如何提高效率。
英特爾神經計算棒二代:邊緣裝置從實驗室到量產
「相比於上一代神經計算棒,NCS 2 有高達 8 倍的效能提升。」英特爾人工智慧產品事業部總經理 Naveen Rao 這樣介紹道。
第二代神經計算棒和第一代的最大區別,就是內含的終端視覺處理器 VPU,從上一代 Myriad 2 升級成了最新的 Myriad X。Myriad X 的效率高達每秒鐘 4 萬億次運算(4TOPS),而且比 Myriad 2 多了一個專門加速神經網路的模組,能夠以 1w 的耗電量實現每秒鐘一萬億次神經網路運算。
神經計算棒可以說是比原型設計中常見的「開發板」更靈活一個等級的算力模組。5 月,在採訪原 Movidius CEO,Remi El-Ouazzane 時,他這樣介紹針對於企業使用者的開發板:「……我們的產品還有內含 Myriad 2 或 Myriad X 的開發者工具包,它是一塊包含 VPU 在內的開發板,包含攝像頭,各種輸入輸出介面。客戶可以利用開發板進行研發和測試,然後在研發完成後,再接入自己的工具包、感測器等……開發板並不直接進行『零售』,我們直接向需要開發 VPU 相關裝置的公司銷售這一產品。」
所以,如果你的系統在走入量產階段之前,想要進行原型設計與測試,那麼 NCS 就非常適合你了。
自 2017 年 7 月 神經計算棒(NCS)一代釋出以來,致力於在邊緣裝置上發力的開發團隊想出了不少有趣的點子。英特爾自己也推出了 AI Builder 專案,英特爾為合作伙伴提供資源和支援,而合作伙伴則貢獻出基於英特爾 AI 平臺的好點子。
在現場,Clean Water AI 專案的創始人 Peter Ma 就介紹了他利用神經計算棒闖關大小 Hackathon 的經歷:在去年 9 月拿到神經計算棒後,他先後將皮膚癌檢測技術、人臉識別「開鎖」技術乃至機械臂相關的訓練技術放在了終端上。最後,他用神經計算棒設計了 Cleanwater AI,一個能從顯微鏡圖片中離線、實時檢測出水中的汙染物的裝置。原型機只是膝上型電腦加上神經計算棒,實驗成功後他們決定將這個專案產品化。
至強與 FPGA:為深度學習最佳化的高效能裝置們
神經計算棒和 VPU 主要集中為終端邊緣裝置提供低功耗的算力,在伺服器級的訓練與推理方面,則是至強與 FPGA 的天下。
英特爾在今年公佈了面向資料中心的至強系列的新一代路線圖,其中包括了一系列用於神經網路的指令集擴充套件,統稱為 DLBoost。DLBoost 給 AVX-512 指令集擴充套件了一系列神經網路指令,並引入了 bfloat16 等用於神經網路推理的新格式,而這一系列舉措的目的就是加速神經網路計算負載。在現場,英特爾的工程師展示了 DLBoost 之後,今年的至強處理器相較於去年的版本在速度上有了近 11 倍的提升。
除此之外,至強也被諸多企業合作伙伴頻繁提及。專攻醫療影像的匯醫慧影提到了至強使得醫療影像中三維乃至四維資料的直接訓練變得可行,騰訊優圖實驗室的安防專案用至強伺服器在雲端進行人臉識別、人體結構化資料分析,包括跨攝像頭的跟蹤。
製造業巨頭美的,用攝像頭和至強處理器搭配,搭建了「視覺檢測平臺」,用以完成質檢任務。
「美的擁有足夠多的工業視覺資料資源,缺少的是一套能夠整合資料採集、演算法模型訓練、演算法部署三位一體的機制。所以我們就開始了工業視覺檢測雲平臺的構建。」美的視覺研究所所長鬍正博士說。英特爾提供了雲端計算部署,輔以基於酷睿的工業終端和 Analytics Zoo 開發工具,完成了能在 50 毫秒內完成圖片的讀取和處理、在 124 毫秒內完成模型推理,且不需要產線進行任何額外停頓的視覺檢測系統,應用在了中央空調、濾芯、微波爐等多條產線,開發週期只有 0.5 個月。
「如果你還想要額外的加速,現場可程式設計門陣列,或者說 FPGA 就是正確的解決方案。」Naveen Rao 說。
大量的 I/O,讓使用者可以減少資料遷移,直接將輸入源接入 FPGA。而「可程式設計」意味著工程師可以根據模型需求改變晶片結構,在 INT4 到 FP32 範圍內調整精度,找到效能與功耗的最佳平衡,「最佳化演算法直到每一個位元」。在展臺區,鯤雲科技模擬了一個擁有 16 臺攝像頭的智慧門店場景,演示了一個基於 Arria 10 FPGA 的解決方案。
nGraph 與 OpenVINO:任選框架、任選硬體
在過去,每一種框架通常只執行在一種硬體上,想要使用其他硬體,意味著工程師需要多掌握一門,甚至幾門語言。選擇框架幾乎和選擇技術路徑一樣重要,跨前後端組合有時意味著重組團隊。
而英特爾在 15 年到 17 年,斥資數百億美元,耗時兩年完成了人工智慧領域幾乎是全品類的硬體收購之後,開始了軟體中間層的建設工作。
今年 5 月的 AIDC 上,英特爾介紹了 nGraph 與 OpenVINO。nGraph 是一個「跨英特爾所有硬體的統一中間層編譯器」,而 OpenVINO 是針對視覺任務進行快速神經網路最佳化與壓縮的軟體工具包。
「今天你可能希望在至強處理器上用 TensorFlow 來訓練模型,明天你可能想在 NNP 訓練加速器上加快這些模型的訓練,或者你想在另一個專案中獲取開拓式的動態效能,同時保持針對 TensorFlow 的軟體最佳化,nGraph 可以幫助你有效結合前端、後端組合,甚至可以同時使用多個加速器進行模型訓練。」英特爾人工智慧部門資料科學部主任劉茵茵描述了一個完全不受框架與硬體限制的情境。
而這樣的情境,已經從願景成為了現實。
百度帶著利用 OpenVINO 和智慧攝像頭的貨運卡車監控解決方案來到了現場。阿里雲更是直接搬來了將鋁合金壓鑄廠的缺陷檢測精度提升了 5 倍的機械臂與視覺系統:在現場,機械臂以每秒 100 幀的速度,在「有瑕疵產品」和「無瑕疵產品」間切換,而平臺能在產品出現翻面的瞬間給出缺陷識別結果。
這個系統使用酷睿 i7 處理器,以及 8 個 Movidius Myriad X VPU 加速器。而這個系統只利用了加速器的 7%,與 CPU 的 25%。
使用 OpenVINO 提升視覺模型效果的企業名單還很長,在會上,英特爾給出了一個「推理效能價格功耗比」的比較:與英偉達 P4 和 Tegra X2 相對標的是多塊 Myriad X VPU 的組合或者單塊 Arria 10 FPGA,在給定效能比較成本方面,有了加速工具的英特爾解決方案似乎都略勝一籌。
「人工智慧作為一項技術,需要與實體經濟有更緊密的結合,推動實體經濟轉型升級。」楊旭在開幕致辭裡的這一句話,在這兩天的會議裡,被英特爾邀請來的諸多合作伙伴與使用者所印證。
如果人工智慧如其所言,是一場剛剛起步的、看不到終點的馬拉松,那麼在這裡,我們得以窺見那些領跑者。