SACC 2018十年沉澱之人工智慧篇:企業新場景下的AI應用落地實踐

人工智慧頻道發表於2018-10-22

人工智慧的概念已經被討論了很多年,終於進入廣泛應用落地階段,這也是目前整個行業普遍關心的問題。人工智慧,是研究、開發用於模擬、延伸和擴充套件人的智慧的理論、方法、技術及應用系統的一門新的技術科學,它是一個賦能技術,本身並不帶任何的商業場景,因此人工智慧與商業場景的完美結合落地,成為了各大企業棘手性難題。

10月17日,第十屆中國系統架構師大會以“十年架構,成長之路”為主題,雲集了國內CTO、研發總監、高階系統架構師、開發工程師和IT經理等技術人群,與會規模超千人。其主線4人工智慧(上)專場,來自餓了麼、優酷、搜狗-搜尋的幾位技術專家為大家分享了AI應用落地實踐,滿滿技術乾貨等你觀摩!

餓了麼高階演算法總監李佩:線上線下融合場景中的影像視覺技術     

餓了麼作為一家以線上交易與線下履約為核心的本地生活平臺,催生了大量的線上線下融合場景中的影像需求。李佩老師表示,過去十年,各大企業不同場景的應用相繼落地,餓了麼逐漸將線上線下服務融合於一起。線上線下融合與傳統的線上到線下的訂單流程是不一樣的,在聯合打通的過程中,影像識別技術起到了至關重要的作用。

大會上,李老師向大家分享了餓了麼線上線下融合場景中影像視覺技術在目標檢測、文字識別、三維重建三大關鍵技術領域中的應用。

在目標檢測領域, 李老師表示,2010年之前,目標檢測演算法都基於非深度學習。直到2014年,深度學習被引入目標檢測演算法。目標檢測主要演算法——兩步法中第二階段R-CNN便是初步引用深度學習的演算法階段。但後續R-CNN也會暴露出一些問題,例如計算費時,Selective search 產生的候選框數量仍然過多(預設2000個),且每個候選框都需要單獨過一遍 CNN,前向計算有大量冗餘。其後對R-CNN不斷進行最佳化,繼而出現了最佳化版SPP、Fast R-CNN、Faster R-CNN。不但結構簡化了很多,效能得到加速,還實現了端到端的訓練。

一步法中,用的比較多的是SSD,李老師表示,即便沒有學過影像識別的同學也應該聽說過SSD。SSD是對YOLO的改進,將YOLO變成一種反覆的迴圈結構。

文字識別領域, 李老師表示,線上上線下的融合場景中,傳統的OCR的效果比較差,應對OMO場景的大量手機照片顯得力不從心。目前常用的是基於深度學習的OCR,實現端到端(end-to-end)的檢測,減少中間環節與誤差積累,這種OCR有較強的適應能力,人工規則少,自動化程度高。

目前,餓了麼一直在無人配送領域進行著深度探索,其中複雜場景中的三維重建技術扮演了一個核心角色。在解決問題的過程中李老師提到了一個關鍵性技術——光速平差(Bundle Adjustment),因為對相機引數估算不準,2D的特徵點對映回3D域,與真正的3D點位置會有偏差。光速平差可以觀測 n 個視角 m 個軌跡的資料,尋找使誤差平方和最小的相機引數。

優酷高階總監蔡龍軍:文娛大腦的機器感官決策能力融合與探索

人類對於透過自身視覺,聽覺等感官能力來接觸世界,理解世界,以及思考世界,這造就了人類不斷的抽象能力和知識總結能力,從而形成了不斷沉澱的知識積累。文化娛樂的形式自人類遠古時候就有,這些娛樂也是多種感官的綜合結果,AI發展到今天有很多讓人驚喜的感官能力,如何融合這些能力,具有知識沉澱和輔助決策能力,讓這些能力更好的與業務相結合,產生商業價值,是待解課題。

蔡老師表示,如今行業娛樂化,中國使用者消費腦洞越來越大,支援的範圍越來越廣,表達的形式越來越隨意,對事情理解的關聯絡性越來越強,繼而隨之,內容也變得多樣化。這樣的背景下,想要把控文娛,需要理解整個網際網路和文娛的相關資料。

如今,AI已經發展到了第三個階段,成為了一種實用性的技術,我們都在考慮用AI建立一個行業大腦。目前,各家公司都有自己的關於大腦的思索和建設,但大多數的公司對大腦的建設是以變成能力體系和基礎設施為主,在這個產業中,我們考慮能不能把它變成在應用層上的深入和應用,這才是網際網路下半場我們需要重點去解決的問題。網際網路下半場的未來是AI,AI打通使用者和產品之間橋樑將是主旋律。

在NLP能力建設領域,大家比較關注的一個問題是序列標註問題,一般的思路是先標註一些語要,先人工再智慧。優酷文娛大腦團隊在該方面也做了很多嘗試。一個思路是用一些方式、規則建立一個體系,把標註的問題量減少,然後建立端到端的模型。

大家在表達一些內容的時候,會有一些規則,透過這些規則建立一個基本的庫,透過這些庫,建立一個語言模型,把內容學出來,然後進行簡單分類,當庫較大的時候,也可以用監督模型學習,這樣可以減少人工的標註。

搜狗—搜尋高階架構師楊東旭:搜狗離線機器翻譯應用實踐

楊東旭老師表示,如果說深度學習是要一艘火箭,深度學習的模型就是火箭的發動機,海量的資料就相當於火箭的燃料。一個好的深度學習模型既要有好的模型,還要有足夠多的高質量資料。

移動裝置上的人工智慧技術對模型大小和計算效能都提出了很高的要求,為了能在移動裝置上進行離線的機器翻譯,搜狗翻譯做了大量的嘗試。

楊老師表示,在離線機器翻譯模型訓練中,搜狗設計了小型的神經網路,以確保離線翻譯能提供精準結果的同時具有更快的速度。同時充分利用了搜狗線上翻譯系統的優勢,讓離線模型學習線上翻譯系統的結果,透過這種知識提純的方式,避免了學習雜亂無效的資訊,讓小的模型能夠學到更有價值的資訊。同時進行模型量化,以匯出更小的模型。

在工程實現上,針對移動端arm架構特點,採用int8進行模型的儲存,降低了記憶體的使用,計算過程中則使用int16,利用neon指令充分加速提升計算效能,在保持精度相當的情況下大大加速了離線計算,讓應用在端上執行更順暢。

“十年磨一劍,礪得梅花香”,第十屆中國系統架構師大會準備了三天傳統技術大會演講,兩天深度主題培訓,更多精彩議題歡迎訪問大會專題頁面(http://zt.it168.com/topic/sacc2018/)。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545819/viewspace-2217145/,如需轉載,請註明出處,否則將追究法律責任。

相關文章