風口下的追逐:AI正在駕駛、客服、教育領域疾馳

AI前線發表於2018-11-20
風口下的追逐:AI正在駕駛、客服、教育領域疾馳
編輯 | Natalie

隨著全球新一輪科技革命的到來,人工智慧已經成為企業發展的新焦點和網際網路變革浪潮的新引擎。

如果說 2017 年是人工智慧技術爆發的“元年”,那麼 2018 年則是人工智慧技術的“落地之年”。人們的關注點也會從下圍棋等比賽型活動慢慢轉移到利用人工智慧真正解決世介面臨的問題。在這個背景下,不少人工智慧創業公司面臨挑戰,但大浪淘沙後活下來的公司和成功轉型的傳統企業可能會成為未來人工智慧產業的領導者。

5 月 15 日,TIC 大會“當 AI 遇上 Cloud:人工智慧的應用實踐專場”聚焦人工智慧的實際應用和實踐,來自 UCloud、馭勢科技、第四正規化、北京褚時科技的資深專家和技術負責人,現場探討了如何利用雲端計算技術助推機器學習、深度學習、視覺計算等 AI 技術和應用迅速落地。本文整理了講師現場演講的乾貨內容,希望為大家提供一些思考和借鑑。

如何利用公有云快速落地 AI 應用

隨著人工智慧產業的興起,人工智慧技術已經逐漸被運用於各行各業。但是無論是對初涉人工智慧應用的傳統網際網路企業,亦或人工智慧領域創業公司,如何快速、高效地落地 AI 應用都成為了巨大的挑戰。UCloud 人工智慧技術專家宋翔結合 UCloud 在公有云領域多年的積累,提出 UCloud 的 AI 落地解決方案,通過提供簡單易用、穩定、高價效比的 AI PaaS 平臺來幫助快速調研、開發和部署 AI 應用。

AI 落地的技術挑戰

如何將 AI 技術與具體的產業應用結合起來,找到實際場景落地對於企業的發展來說非常關鍵,宋翔結合 UCloud 實際經驗提出了 AI 落地的技術挑戰。

第一,基礎環境。基礎環境不僅涉及到 AI 的框架,還涉及到演算法庫、各種各樣的硬體裝置及多類儲存。這些方面的選擇交叉會產生一個非常複雜的環境。如何控制基礎環境,並使開發人員更方便地使用環境,是第一個挑戰。

第二,AI 系統的建設。AI 的落地需要一個成體系的 AI 系統,能否更好地相容各類 AI 框架和演算法,能否使平臺具備橫向擴充能力,支援業務規模的不斷擴大,以及是否具備彈性伸縮能力和容災能力等,這都對演算法的相容性、平臺的擴充套件性、分散式化、縱向擴充系統提出更高的要求。

第三,投入產出。怎樣以較小的投入得到較高的回報,是 AI 投資商都要考慮的問題。比如在調研階段怎麼以較輕的資源和較少的投入去驗證想法,在開展 AI 應用時怎麼壓縮研發的成本,使研發人員更專注於演算法,以及怎麼降低資源成本和運營成本等。

AI 落地技術挑戰的解決思路

針對 AI 落地技術面臨的問題,宋翔提出了 UCloud 的解決思路。在 UCloud 看來,最核心的方法是平臺化。實現平臺化則需要做到環境分離、分散式化、可擴充套件性和資源共享四個維度共同發展。

環境分離

首先是環境分離,環境分離分為 3 個主要的方向:

第一,通過容器的封裝把 AI 軟體層的軟體棧和基礎資源進行隔離,其次通過 CPU 雲主機、GPU 雲主機、物理雲主機和底層的 GPU 資源或者 CPU 資源進行隔離,最後通過軟體接入層把儲存和計算進行隔離,讓更多的儲存資源接入到 AI 環境中去。

風口下的追逐:AI正在駕駛、客服、教育領域疾馳

其中,環境分離的基礎想法涉及兩個核心的技術,第一個為容器技術,第二個為資料接入技術。

容器技術以層層隔離的方式進行分離。以下圖的軟體棧為例,最底層為基礎環境,中間層為計算庫,例如 CPU 或 GPU,然後在此基礎上累加不同的 AI 框架,增加 AI 演算法和程式碼的實現。

風口下的追逐:AI正在駕駛、客服、教育領域疾馳

由此,容器技術可以帶來五個方面的好處:

  • 封裝。執行環境完全隔離,不同任務之間不會產生軟體衝突。

  • 預裝。基礎映象內建各類基礎軟體環境,減少使用者環境準備開銷。

  • 自由。可以自由安裝各類軟體包,封裝各類演算法。

  • 可重用。演算法的容器映象可以重複使用。

  • 相容性。GPU 容器映象可以在任意型別 GPU 節點執行。 CPU 容器映象可以在任意型別 CPU 節點執行。

資料接入技術則需提供本地儲存和 NFS 兩種介面,使得上層的計算節點訪問各類的資料層,通過資料接入層做介面轉移、頻寬控制甚至許可權控制等功能。

風口下的追逐:AI正在駕駛、客服、教育領域疾馳

同樣,資料接入技術可以帶來多方面的好處:

  • 封裝。計算節點邏輯不需要支援各種儲存介面,僅需要通過 2-3 種(例如本地儲存、NFS)介面就可以對接各類儲存型別。

  • 靈活。通過擴充資料接入層可接入的儲存型別,也就可以擴充 AI 平臺的資料接入型別。

  • 穩定。資料接入層可以做資料流量控制,確保各個任務的 SLA,同時對後端的資料儲存系統進行頻寬、流量保護。

  • 安全。資料訪問許可權控制,確保資料安全性。

分散式化

進行軟體分離後,就可以考慮搭建一個訓練平臺,包括任務排程、資源管理、容災容錯的能力。

同時,也可以搭建一個線上推理平臺,通過此平臺快速的部署自己分散式的線上任務。

可擴充性

當平臺搭建完成後,就很容易做橫向擴充和縱向擴充。比如縱向擴充,可以通過平臺的管理系統管理 CPU 叢集、GPU 叢集,並可快速的增加自己的資源池。

風口下的追逐:AI正在駕駛、客服、教育領域疾馳

資源共享

在搭建完成的平臺上可以統一的管理 CPU、GPU 還有儲存的叢集,在不同的業務組或者不同的公司之間共享這些資源,使得資源的使用率變得更高。

公有云在 AI 落地環境扮演的角色

作為國內最早成立的一批公有云創業公司,AI 的發展對於 UCloud 可以說是大勢所趨,也是水到渠成。那麼,公有云在 AI 落地環境重扮演什麼樣的角色呢?

總體來說,利用公有云來做 AI 落地,首先享受到的是 IaaS 的服務

  • 資源。充足的計算資源、儲存資源、網路資源, 降低 AI 研發過程資源採購、維護的成本

  • 基礎環境。提供虛擬機器映象、容器映象等服務。 降低 AI 研發、應用過程中 AI 環境部署的難度。

  • 基礎服務。提供諸如負載均衡(ULB)、分散式儲存等基礎服務。 降低 AI 應用產品化過程的研發成本。

其次還可以享受以用公有云的 PaaS 服務:

  • 環境封裝。提供預置 AI 基礎環境,包括 NV GPU 驅動、Cuda、TensorFlow/MXNet 等框架,使用者無需進行復雜的環境安裝、配置工作;

  • 分散式。提供 AI 訓練平臺和 AI 線上服務平臺,提供一站式 AI, 使用者無需自行搭建複雜的 AI 平臺;

  • 橫向擴充。提供充足 CPU/GPU 資源,可自由橫向擴充,使用者無需擔心資源問題;

  • 縱向擴充。通過多種計算、儲存網路資源型別,使用者可自由選擇合適組合;

  • 計費靈活。基於秒級分鐘級的計費規則,按需收費, 使用者無需擔心資源浪費。

嵌入式裝置上的實時深度學習方法實踐

除了軟體技術,人工智慧的落地應用,也必然離不開硬體裝置的支援。馭勢科技的人工智慧技術負責人潘爭,現場講解了嵌入式裝置上的實時深度學習方法實踐,包括視覺識別在自動駕駛中的需求和挑戰以及效率精度平衡的卷積網路。

視覺感知特點

隨著汽車自動駕駛技術的發展,車載光學系統和車載雷達系統在保證行車安全上顯得尤為重要。

當前,提到自動駕駛汽車環境感知技術,很多人會首先想到鐳射雷達。的確,相較於攝像頭、毫米波雷達等車載感測器,鐳射雷達具有高精度、高解析度的優勢,但受制於價格高昂的因素尚未普及開來。因此,在已有鐳射雷達方案之餘,如何找到一種成本更低的環境感知解決辦法成了很多企業關心的問題。針對這個難題,視覺感知應運而生。

視覺感知包含以下的特點:

一,資訊更豐富。以鐳射雷達為主的感測器,主要做一些雲的感知和深度的感知,但是物體的顏色、紋理它是無法感知的。比如前方有一個障礙物,鐳射雷達感測器無法判斷到底是一輛車還是一個人,只是知道一個形狀資訊,並不知道一些紋理的資訊。但是通過視覺感知,就可知道它具體的顏色屬性及具體的紋理表現,潛在的得到更多的資訊,輔助決策和控制。

二,視野更寬闊。鐳射雷達的上下視野為 30 度到 60 度,而且最多隻有 64 個畫素的感知。可以想象,如果一個圖片上下只有 64 個象素,這張圖片則是非常模糊的。但是通過攝像頭來感知周圍的環境,上下則有 720 個畫素感知周圍的世界,能夠幫助你捕捉更多的資訊。

三,基建更配合。道路設計、障礙物、各種各樣的訊號燈、交通標誌其實都是為了視覺資訊而設計傳達的。

四,硬體更便宜。鐳射雷達是一個非常昂貴的裝置,相對於一個攝像頭,它的成本是幾十倍,甚至上百倍的價格,少則幾萬塊,動輒幾十萬。而視覺感知則可擁有民用級、夠實用的產品需求。

效率精度平衡的卷積網路

基於視覺感知的特點,馭勢科技非常重視視覺識別演算法的開發,希望用嵌入式的 GPU 平臺去完成所有視覺感知所需要的計算。這就需要做很多網路壓縮優化的工作,使效率和精度能夠取得一個比較平衡的網路選擇。

比較近幾年比較有名的網路會發現,若想提高大概 10% 的正確率,就要付出大幾十倍的計算量,那麼必須使用精度最高的網路才能達到自動駕駛的精度需求麼?

潘爭介紹了兩個速度較快的網路,第一個為 PVANet,如下圖所示:

風口下的追逐:AI正在駕駛、客服、教育領域疾馳

PVANet 把原來的標準卷積變成了兩部分,一部分是正常卷積,另一部分則把卷積結果取反再和原來卷積結果進行拼湊。這樣既省了一半的計算量,又能得到兩倍計算量維度的特徵圖。由此馭勢科技在 PVANet 網路上進行了人車檢測的效能測試,測試發現,對於比較密集的場景,PVANet 可以把所有的人、車檢測出來,而不需要幾百層,甚至上千層的網路。所以,把像 PVANet 級別的網路應用到自動駕駛中完成實時的人車檢測是完全可行的。

第二個為 MobileNet,如下圖所示:

風口下的追逐:AI正在駕駛、客服、教育領域疾馳

它的基本原理是把三維的卷積和分解成兩個部分。第一部分對每個輸出的 map 進行二維的卷積,使三維卷積變成二維卷積,降低計算量。圖中列了計算量降低的倍數,分子是 MobileNet 的分解後的計算量,分母是原始的標準卷積的計算量,可以發現,它的計算量是原來基礎上的 DK 方之一,再加 N 分之一,也就是說,若用一個 3×3 的卷積,通過 MobileNet 方式,就會變成原來九分之一的計算量,同時它還能夠保證達到和原來同樣精度的效果。

基於雲端計算構建機器學習系統的實踐

雲端計算的發展加快機器學習的落地,機器學習除了對雲端計算有算力的需求之外,如何基於雲端計算構建一個可靠的機器學習系統是每個企業都需要考慮的。UCloud 高階研發總監葉理燈,以線上推測系統為例,展示一套機器學習平臺的設計及實現方案,包括資源的管理,架構設計及實現。

Serverless 產品及架構

Serverless 指的是由開發者實現的服務端邏輯執行在無狀態的計算容器中,它由事件觸發, 完全被第三方管理,其業務層面的狀態則被開發者使用的資料庫和儲存資源所記錄。如下圖所示:

風口下的追逐:AI正在駕駛、客服、教育領域疾馳

圖中上半部分描述的是網際網路應用傳統架構的模型:使用者客戶端 APP 與部署在伺服器端的常駐程式通訊,服務端程式處理該應用的大部分業務邏輯流程。下半部分則描述了 Serverless 架構模型。與傳統架構模型最大的不同在於,網際網路應用的大部分業務邏輯流程被轉移到客戶端上,客戶端通過呼叫第三方服務介面來完成諸如登入、鑑權、讀取資料庫等通用業務場景;高度定製化的業務邏輯則通過呼叫第三方 FaaS 平臺執行自定義程式碼來完成。總體上看,Serverless 架構將傳統架構中的伺服器端的整串後臺流程拆分成在客戶端上執行一個個第三方服務呼叫或 FaaS 呼叫。

在 Serverless 架構中,軟體開發者和運維工程師們不再需要關心伺服器的部署、架設、伸縮,這些問題交給雲平臺商來解決,程式設計師們得以將精力投入用程式碼來實現業務邏輯中,而不是管理伺服器。Serverless 並不意味著不再需要伺服器了,只是伺服器資源的申請、使用、排程、伸縮由雲服務商自動實現,應用開發者無需關心。

構建線上推測系統

基於 Serverless 不用管理,可彈性擴用、高可用和按需付費的四個方面的特性,可以構建一個公司 AI 的系統,主要分為三步:

第一步,建設一個底層的計算平臺。

第二步,上層 APP 管理,方便使用者去管理模型。

第三步,提供 SDK。方便使用者在不同的框架上使用系統。

那麼怎麼構建一個滿足 Serverless 的計算平臺呢,首先需要考慮兩個問題。

第一,希望使用者使用這個計算平臺時,是不用運維這個計算平臺的。

第二,希望使用者使用這個計算平臺的時候,是按照實際消耗的計算資源來計費的,而不是按照配置來計費。

下圖是一個簡單的 PUC 的示意圖:

風口下的追逐:AI正在駕駛、客服、教育領域疾馳

假設在構建這個系統時,對外提供兩個能力,一個能力是允許使用者通過把演算法打包成 docker 上傳,另一個能力是允許使用者提交任務、計算任務。指定 API 上傳到 docker 倉庫的路徑,然後把計算的結果通過 API 返回。

下圖為中央平臺的詳細架構:

風口下的追逐:AI正在駕駛、客服、教育領域疾馳

這是個完全基於 IaaS 平臺搭建出來的計算平臺的架構,具備跨可用區容災、按 Set 部署、灰度釋出及所有模組可以平行擴充套件的優點。

搭建這個系統之後,需要在計算平臺上面加 APP Engine 層,利用這層,可以去建立一個 APP,這個 APP 對應的演算法就是你的 docker 映象,可以通過它來管理,也可以切換不同的版本的訪問。

風口下的追逐:AI正在駕駛、客服、教育領域疾馳

有了計算平臺和 APP Engine 這兩層服務之後,其實機器學習的 Inference 的系統基本上就出來了,下圖為整個框架的系統最後的示意圖,當請求過來後,希望 Inference 程式碼的 AI 模型是直接打包進來放到計算平臺,業務可以通過 APP Engine 提供的路口直接訪問,也可以訪問一個 model。

風口下的追逐:AI正在駕駛、客服、教育領域疾馳

AI 技術在客服領域的應用實踐

強 AI 時代,人們對活躍於各行各業的智慧客服的期待也越來越高。第四正規化智慧客服負責人邢少敏介紹第四正規化人工智慧技術在客服領域的應用實踐,包括分享智慧客服工作原理,使用的相關自然語言處理、機器學習、深度學習等技術以及研發智慧客服的技術難點。

智慧客服工作原理

為什麼要有客服呢?為什麼要有智慧客服呢?相信大家都會有了解。在很多行業裡面,其實都有一個客服問題,無論是授權的諮詢還是售後的服務等等,大量的問題都具有重複性,這些重複性的問題則會浪費大量人的成本。而大量有價值的資料例如聊天記錄、歷史記錄是閒置的,沒有被利用起來。所以這種情況下就有了智慧客服。

智慧客服比較典型的常見功能,總結一下為三類:

第一類,單輪問答。

第二類,多輪對話。

第三類,人機協作。

而智慧客服的工作原理,基本上各家智慧客服廠商的做法都大同小異,都是類似的方向,如下圖所示:

風口下的追逐:AI正在駕駛、客服、教育領域疾馳

首先需要語音識別模組,把客戶的語音識別成文字,然後做文字的理解,接著做意圖識別,最後再在對話管理系統裡面進行分配。

具體來說,智慧客服的工作原理分為以下幾個模組:

1、自然語音處理,比如說分詞、分句、詞性標註、句法分析、指代消解,句子的權重,語意相似度等,還有問句的型別、句型等。這些會在第一步對使用者的問題做一個全面的分析,然後儲存下來。

2、意圖識別,藉助前面自然語言處理的一些結果,分為兩種方式,一個是模板方式,另一個是分類器的方式。模板的方式很簡單,通過與模板的對比進行意圖分析。而分類器的方式,是通過收藏某個領域大量的資料後,進行人工標註,再訓練成為一個分類器進行意圖識別。這兩種方式各有優劣,模板方式的問題在於,它雖然很精準,但它的畫畫能力比較弱,分類器的方式畫畫能力強,但缺少很多資料。

3、知識庫,知識庫其實是智慧客服系統最主要的一種模式,它的做法基本上與做一個搜尋引擎比較類似,基本上分兩步。

第一步是侯選集的召回。從知識庫裡召回一些可能跟問題相似的一些侯選集。

第二步是重排序。用文字相似度、句子相似度解鎖相關度,或者用神經網路的相似度模型或者用多模型融合。

4、知識圖譜,知識圖譜與知識庫的區別是,知識庫是一種問答的結構或者是一種樹形的結構,而知識圖譜是一種圖狀的結構。

知識圖譜常見的工具有 Neo4j、OrientDB、Titan 等等。

5、對話技術,對話技術也有 3 種方式,第一種是有限狀態機填槽,第二種是 MDP 的方式,第三種是學術界經常用的端到端的模型,希望用一個巨大的模型解決出現的所有問題。

如下圖所示:

風口下的追逐:AI正在駕駛、客服、教育領域疾馳

左邊是裝載機的一個示意圖,右邊這張是 MDP,就是馬爾可夫決策過程的示意圖。

6、聊天機器人。實際上也是兩種做法,一種是用神經網路的方式,主流的是用神經網路,或者說用統計模型之類的,通過收集大量的語料訓練出模型,只要語料足夠多,它的效果就足夠好。另一種是模型的方式,但所帶來的問題是不精準且需要大量的語料。

智慧客服技術難點
資料缺失問題:
  • 多數情況下,沒有足夠資料訓練模型

  • SaaS 服務涉及到不同領域,資料不足問題更加突出

資料冷啟動方法:
  • 通用語科訓練模型,資料增長後再優化模型

  • 先用規則系統,資料到了一定量,在用模型

多輪對話:
  • 多領域對話仍然是難題:

    • 逐個領域做對話成本太高

    • 通用對話管理效果不理想

  • 場景切換無法平滑進行

    • 不允許切換場景顯得死板

    • 允許切換場景複雜度大幅度提升

人機協作:
  • 現有方式仍然是機器人為輔

    • 機器人回答不了,人回答

    • 機器人推薦答案給人

  • 探索讓機器人為主,人工為輔

    • 提高機器人回答準確率

    • 提高機器人自學習能力

AI 技術在教育領域的應用

除了常見的智慧客服,AI 近年來在教育領域也大放異彩,北京褚時科技 CEO 李曙光現場通過 AI 在口語測評和作業批改等領域的解決方案分享,深入淺出解析了“影像”、“語音”、“自然語言處理”等技術在應用層的技術實踐。

自動口語評測

現在市面上普遍可以看到的產品,基於的評測技術主要是兩類。

基於 GOP(Goodness of Pronunciation):(例如英語流利說、少兒領域的英語趣配音)

其主要技術為:

  • 強制對齊, 語音模型分數對比,發現有問題讀音;韻律,語速和流利度;

  • 加入語音識別;

  • 深度學習:CNN,DNN;

  • 移動端。

Freetalk 口語評測技術:(應用於託福或者雅思的開放式題目)

其主要技術為:

  • 語音分析:對發音,重音,語調,語速和流利度等方面進行分析和特徵提取。

  • 語音識別:針對英語非母語者的語音識別,使用深度學習方法,識別準確率對於提取口語內容關鍵。

  • 自然語言處理分析:對識別內容在話題相關性,語義連貫性,語法錯誤,詞彙使用,用詞搭配等多維度上進行分析和特徵提取。

  • 自動打分:多模型融合,大量口語訓練語料。

應用場景:

1、託福和雅思口語考試自動打分和批改: 目前在打分上可以取代人工,平均誤差在 2 分左右(30 分滿分),大幅降低教師重複勞動。2、斬託福和斬雅思:流量題庫產品,覆蓋 80% 以上的出國考生。累計百萬學生使用,

自動作文評測

主要的評測技術為:

  • 語法錯誤檢查:主謂一致,動詞形式的使用,片語的搭配,冠詞使用、詞性、選詞、介詞用法,動詞時態等方面,Spelling,專有名詞大小寫和句首字母大小寫等。

  • 自然語言處理分析特徵提取:分析和統計學生作文中的文字特徵,包括用詞複雜度,用詞搭配使用,語篇組織結構,論述連貫性和是否離題,對於議論文能否支援論點論述等等。

  • 自動打分引擎:針對特定的考試型別,我們使用機器學習演算法(分類,排序),動態調整以上各個方面所佔權重和最終的評分標準,訓練相應的打分模型,最終系統可以在多個緯度給出詳細的分析報告和反饋;

  • CNN 等方法融合。

應用場景

1、初高中,託福雅思等作文自動打分和批改: 取代人工打分,平均誤差在 2 分左右(30 分滿分),類似 ETS 的 e-rater;

2、基於海量人工批改資料研發;在語法錯誤檢測數量和精準度上遠遠領先於同類產品,可以和全球使用者量最大的的批改引擎 Grammarly 媲美。

AI 的更多應用
自適應學習技術
  • 知識點建立知識圖譜。

  • 試題標籤:知識點,難度,題型,考察能力等。

  • 根據模考結果的資料分析,可以更精準的為不同能力的學生提供個性化備考計劃,推送和及時調整學習路徑。

  • 自適應測試:Item Response Theory(IRT),根據難度,區分度等建模,比較少的題目,測的更準。

手寫板場景

以下幾個領域是褚時科技一直關注的幾個方向(目前還不能很好的產品化,預計未來突破)。需要和 K12 培訓機構或者公立學校合作。

  • 手寫公式識別:可以參考美國 MyScript 這個公司,已經趨於成熟。但是存在換行等問題。

  • 數學等主觀題識別:手寫公式,字母識別還有漢字識別準確度提升,趨於成熟。

  • 數學應用題解題和批改:趨於成熟。

  • 初高中數學幾何題目解題和批改:解題準確度還有提升空間,目前準確度已經超過 70%;批改趨於成熟。

相關文章