晶片巨頭高通的AI軟實力

AIBigbull2050發表於2020-09-29
2020-09-28 16:20:03

從量化到無監督學習再到量子AI,高通在AI領域有這些前沿研究成果。

提到高通,如果你想到的還是無線電通訊技術和晶片,那你可就落伍了。

2007 年高通啟動首個 AI 專案,開始了人工智慧研發之路。2018 年 5 月,高通AI研究院成立,進一步強化整合公司內部的前沿人工智慧研究。在AI研發方面,高通從未停下腳步。

晶片巨頭高通的AI軟實力

高通自2007年以來的AI研發成果。

最近,高通技術副總裁、阿姆斯特丹大學機器學習教授Max Welling撰文介紹了高通近期的AI研發成果,涉及量化、無監督學習和量子AI等基礎性長期研究。



量化


如何提高能效,尤其是在終端側實現高能效是高通一直以來的研究方向。

能效,即使應用能夠實時、低功耗、流暢地進行推理。而量化是縮小神經網路大小、降低計算時間和能耗的重要手段,然而量化方法面臨著一些挑戰:維持模型準確率,以及自動化量化過程。

高通在這兩個方面均取得了顯著進展,其目標是將神經網路量化至更低的位寬,同時維持原有的準確率,並增加自動化程度、減少所需資料量、最小化訓練。為解決這些問題,過去一年中高通提出了三種量化方法:data free quantization (DFQ)、AdaRound (Adaptive Rounding) 和Bayesian bits。

晶片巨頭高通的AI軟實力




DFQ量化:從 32 位浮點到 8 位定點量化

DFQ是一種解決權重範圍中的偏差和不均衡的自動化方法,由高通AI研究院2019年提出,被ICCV 2019接收為Oral論文 [2]。該方法無需訓練,不需要額外資料,且能在不過多損失準確率的情況下實現 8-bit 量化。

DFQ方法不依賴於訓練資料、微調或超引數設定,而是用一種自動化的方式使32-bit設定下訓練得到的深度學習模型在8-bit 硬體上執行。

為什麼能實現這樣的效果?這離不開跨層均衡(cross-layer equalization)和偏見糾正。

晶片巨頭高通的AI軟實力

DFQ演算法流程圖。(圖源:[2])

DFQ方法利用模型重縮放和重引數化,使模型對量化具備更強的穩健性,緩解量化對準確率的影響。例如,使用 MobileNet V1、MobileNet V2 和 Resnet 18等模型執行目標檢測任務,在不需要重新訓練的情況下,透過DFQ進行量化後的模型準確率損失在0.9%以內。

晶片巨頭高通的AI軟實力

直至6-bit量化時,DFQ量化後的模型仍可以達到接近32位浮點的準確率,而基線量化方法從12-bit 量化開始就出現了準確率顯著下降的現象。

無需重新訓練,就能完成從 32 位浮點到 8 位定點的模型量化,並實現幾乎相同的準確率。這為高通生態鏈中廣泛客戶的量化需求提供了強有力的支援。

AdaRound:4-bit 量化

AdaRound是一種更好的訓練後量化權重舍入(weight-rounding)機制。該方法由高通AI研究院於今年6月提出,相關研究被ICML 2020會議接收 [3]。

AdaRound 挑戰了常見的舍入方法,提出用自動化方式找出最優的舍入選擇。AdaRound基於DFQ方法,因此無需重新訓練,只需要少量無標註資料,並且能在不過多損失準確率的情況下實現 4-bit 權重量化。

高通研究人員首先建立了一種分析舍入方法效果的理論框架,該框架考慮了輸入資料和任務損失的特點。基於這一框架,高通將舍入形式化為每層的二次無約束二元最佳化問題(QUBO)。

AdaRound方法透過連續鬆弛(continuous relaxation)為這一形式化找出優秀的解。該方法只需要少量無標註資料,計算高效,且能夠應用於任意具備卷積或全連線層的神經網路。

實驗表明,AdaRound在多個網路和任務上獲得了新的訓練後量化SOTA結果,包括Resnet18、Resnet50、MobilenetV2、InceptionV3 和 DeeplabV3。無需微調,AdaRound可以將Resnet18 和 Resnet50 的權重量化至4-bit,並且準確率損失不到1%。

晶片巨頭高通的AI軟實力


不同訓練後量化方法的效能對比情況。該表展示了不同模型的ImageNet驗證準確率,從中可以看到AdaRound對Resnet18 和 Resnet50 執行量化後的準確率相比全精度模型只有不到1%的損失。(圖源:[3])


Bayesian Bits:量化 + 剪枝,實現混合精度量化

Bayesian Bits是高通今年5月提出的一種學習混合精度量化的新方法 [1]。和前面兩種方法相比,它需要訓練和訓練資料,但支援聯合學習位寬精度和是否應對節點執行剪枝操作。該方法自動化執行混合精度量化,並在準確率和kernel位寬之間進行權衡,實現SOTA結果。

Bayesian Bits使用一種新型的量化操作分解方式,順序地將位寬翻倍。對於每個新的位寬,它將全精度值和之前舍入值之間的殘差進行量化。然後確定是否新增量化後的殘差,以得到更高的有效位寬和更低的量化噪聲。為生成硬體友好的配置,該分解從二次冪位寬開始,然後透過額外的 0-bit 選擇,實現從統一的視角看待剪枝和量化。

晶片巨頭高通的AI軟實力

分解圖示。(圖源:[1])

之後,Bayesian Bits引入可學習的隨機門,用它們來整體控制給定張量的位寬。這樣,我們就可以透過對隨機門執行近似推斷來獲得低bit解。

實驗表明,Bayesian Bits方法能夠學習剪枝的混合精度網路。相比於靜態位寬方法,該方法在準確率和效率之間實現了更好的權衡。

使用這些不同的量化方法,AI工程師和開發者可以選擇適合自己需求且能夠實現恰當權衡的方法。

此外,高通AI研究院提出的這些量化方法商用化速度很快,並透過論文、開源或SDK的形式與社群共享。例如,DFQ已被整合在高通創新中心(QuIC)開源的AI模型效率工具包(AIMET)和高通神經處理SDK中。

晶片巨頭高通的AI軟實力



無監督學習


人類具備學習和想象世界的能力。衝擊我們感官的原始資訊就像一大堆相關關聯的連續訊號(如光波和聲波),這些訊號在我們的大腦中被解析為離散的物體及其之間的關係。我們可以看到桌椅、貓狗,可以理解它們的用途,甚至它們之間的關聯。

而在深度學習中,常常將連續輸入訊號轉換為較為抽象的表示(即嵌入),以便執行預測。而表示通常透過監督學習學得,即模型獲得輸入訊號和標籤。不過,學習過程並非一定是監督式的。即使沒有標註,我們也可以執行學習任務,這就是無監督學習,該方法從原始輸入訊號中學習,旨在根據物體及其之間的關係來學習世界的模組化表示。

無監督學習是高通的一大研究方向。最近,高通研究人員對射頻(RF)訊號應用無監督學習技術,達到了釐米級的精確定位。

在下圖所示的汽車裝配線環境中,存在很多不規則的形狀和移動裝置,因此很難使用GPS等技術。如果我們想要基於手機接收到的射頻訊號來了解流水線工人的精確位置,使用傳統方法建模室內RF傳播是非常複雜的。換言之,由於牆和機械臂等不規則物體的反射、衍射和散射,射頻訊號會來自不同的路徑,因此我們很難精確瞭解工人的位置。

晶片巨頭高通的AI軟實力

對射頻訊號應用無監督學習可用於汽車裝配線環境中的精確定位。

對於此類複雜環境或任意型別的室內定位環境,高通研究人員想出了一個好辦法:將AI與物理學知識結合起來,從無標註射頻訊號中學習傳播的複雜物理學知識。該方法就是「神經增強」(neural augmentation),即利用人類知識和演算法增強神經網路,反之亦然。神經網路學習RF環境的一個優勢是,它可以估計RF接收器的精確位置,從而定位人的位置。

晶片巨頭高通的AI軟實力

將無監督學習技術應用於RF環境,進而學得精確定位。

在「神經增強」環節,高通建立的神經網路使用生成式自編碼器和傳統的通道建模,基於無標註通道狀態資訊(CSI)進行訓練,並學習RF環境。該神經網路以完全無監督的方式學得發#射#器位置,甚至瞭解其剛體轉換(如轉移、反射、旋轉)。只需少量標註RF測量值,就可以解決模糊對映問題,進而實現釐米級的精確定位。


神經增強技術:混合架構才是王道

在上述示例中,「神經增強」技術發揮了重要作用。該方法的核心思想是承認生成模型是智慧的關鍵。

Max Welling教授認為「神經增強」有助於解決如何將推理能力整合到AI中的問題。

在人工智慧發展初期,符號主義者認為我們應將邏輯推理的規則寫入智慧系統,聯結主義者認為神經網路架構可以學習一切。神經增強則位於二者的中間地帶。

在執行經典推斷(即符號推理)時,模型無需從樣本中學習,只要遵循邏輯規則,透過最佳化找到最可能的解釋即可。但是,它忽略了從一組此類問題中學習的重要機會。假如你需要重建受損影像,你可以基於影像的生成過程最佳化某個目標函式,進而推斷出最優的影像重建結果;你也可以建立一個由受損影像和完整影像對構成的資料集,學習如何重建它們。

而在神經增強中,你可以做到上述兩者:使用經典模型作為主幹迭代推理模型,訓練一個神經架構來糾正其錯誤。換言之,將生成式因果模型嵌入到神經網路結構中。

Max Welling教授認為,這類混合架構是未來模型設計的關鍵 [4]。



量子力學 + AI = ?


量子計算是近期的熱點話題,高通在這方面也做了一些基礎研究:如何將量子力學和AI結合起來,實現顯著的效能提升。

量子力學從微觀的角度描述自然,具備兩個適用於AI處理的屬性:疊加(superposition)和糾纏(entanglement)。疊加表示每個量子位元既可能是1也可能是0。糾纏表示量子位元之間密切連線,一個量子位元的變化會立即影響到另一個。

高通的研究將這一範疇從經典位元(0或1)轉向貝葉斯位元(0和1之間的機率分佈)和量子位元(可將其看作球面,能夠新增另一個維度或自由度)。

晶片巨頭高通的AI軟實力

將量子力學應用到機器學習是真正基礎的綠色研究領域。量子退火法和量子深度學習就是利用量子計算強大力量的典型例子。量子退火法可用於解決組合最佳化問題,如晶片的物理佈局,從而提供效能的巨大提升。量子深度學習將量子力學的數學知識應用於深度學習,從而設計出更強大的演算法。

目前,高通在這一領域取得了一些初步成果。他們開發了量子形變二值神經網路,支援在量子計算機上執行大型經典神經網路,或在經典計算機上進行高效模擬。基於此,高通研究人員將這一經典神經網路變形並整合量子效應,而且該網路仍能高效訓練和執行。這也是首個用於真實資料的量子二值神經網路。

晶片巨頭高通的AI軟實力

量子形變二值神經網路定義及原理(圖源:[5])。

高通AI研究院成立兩年多以來,研發方向從平臺式創新,即用 AI 的方法使 AI 更有效,轉向了全方位、全頻譜的 AI 研究,在基礎研究跟應用研究之間進行很好的平衡。

晶片巨頭高通的AI軟實力

此外,高通AI研究院在能效、高效學習、個性化方向上發表了多篇論文,被CVPR、ICLR、NeurIPS、ICCV、MLSys等多個頂級會議接收,詳情參見



參考文獻


[1] Baalen, M., Louizos, C., Nagel, M., Amjad, R. A., Wang, Y., Blankevoort, T., and Welling, M. Bayesian Bits: Unifying Quantization and Pruning. arxiv preprint arXiv:2005.07093, 2020.

[2] Nagel, M., Baalen, M., Blankevoort, T., and Welling, M. Data-Free Quantization Through Weight Equalization and Bias Correction. In ICCV, 2019.

[3] Nagel, M., Amjad, R. A., Baalen, M., Louizos, C., and Blankevoort, T. Up or Down? Adaptive Rounding for Post-Training Quantization. In ICML, 2020.

[4] Welling, M. As far as the AI can see: What we still need to build human-level intelligence. from
[5] Welling, M. Pushing the boundaries of AI research. from

https://www.qualcomm.com/media/documents/files/presentation-pushing-the-boundaries-of-ai-research.pdf.








來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2724938/,如需轉載,請註明出處,否則將追究法律責任。

相關文章