歡迎大家前往騰訊雲+社群,獲取更多騰訊海量技術實踐乾貨哦~
本文由columneditor 發表於雲+社群專欄
導讀:7月28日,騰訊雲在北京舉辦雲+社群沙龍,邀請來自騰訊與四川雲檢科技的五位AI技術專家,分享他們在專業領域的AI開發經驗,幫助開發者在具體行業場景中實踐AI技術。現場有近400位開發者參與,答疑及茶歇環節氣氛熱烈,多位開發者與講師就演講內容展開討論,表現出對AI濃厚的開發興趣。
AI技術已經家喻戶曉。不論是移動終端裝置,還是企業系統平臺,都開始整合AI能力,現階段看,AI融合到各個行業的潛力非常巨大,能夠在眾多場景中發揮作用,比如雲端計算。在今天數字化轉型的浪潮中,企業上雲成為了新常態,雲上大量的資料、豐富的應用通過AI技術,能夠解決很多問題,因此雲與AI的融合也是新常態。
因為騰訊強大的社交、遊戲等基因,騰訊AI有著非常豐富的實踐場景,在朋友圈爆款應用、OCR識別、醫療、遊戲等場景中都運用了AI技術,開發出了大量的新功能和能力。即便如此,AI在這些領域的嘗試有些還在初級階段。如何在具體業務場景中提供匹配的能力,利用AI把問題簡單化,釋放生產力,依然非常具有挑戰性。
因此,7月28日,騰訊雲在北京舉辦雲+社群沙龍,邀請來自騰訊與四川雲檢科技的五位AI技術專家,分享他們在專業領域的AI開發經驗,幫助開發者在具體行業場景中實踐AI技術。現場有近400位開發者參與,答疑及茶歇環節氣氛熱烈,多位開發者與講師就演講內容展開討論,表現出對AI濃厚的開發興趣。最後,所有開發者們與講師們合影留念,結束了這次盛夏中的、充滿前沿知識洗禮的趣味沙龍。
朋友圈爆款背後的計算機視覺技術與應用
在現階段,強調AI在場景中落地,就是希望AI走進千家萬戶,融入整個社會,而不僅僅是曲高和寡的模型,這就是AI技術產業化的趨勢。比如,朋友圈裡像軍裝照、武士青年這種有趣的互動活動,就是目前探索出來的計算機視覺最快能夠來到大家身邊的落地應用。對於開發者來說,通過對具體案例流程的瞭解,就能夠快速的掌握開發所需要的能力,從而實現自主創新開發。
騰訊大資料與人工智慧中心AI技術專家葉聰在沙龍活動中就以朋友圈一些爆款活動作為切入點,幫助開發者們梳理了當前關於計算機視覺與技術的應用。葉聰表示,騰訊雲現在非常講究AI場景化,在很多的應用中都整合了AI能力。
五四青年節的活動《重溫五四,你最像哪位青年?》就是騰訊首先開始做的。通過人臉檢測與分析技術、人臉檢索技術,將使用者上傳的照片與特定形象進行臉部層面的檢索對比,通過匹配分析找出資料庫中外貌特徵與使用者最為相似的一張照片,這個創意為後續AI娛樂產品設計提供了參考。
相比於學術角度對計算機視覺的定義——如何讓計算機從影象和視訊中獲取高階、抽象的資訊,從工程角度來看,「使機器模仿人類的視覺能力變得自動化」的定義則更明瞭。葉聰介紹,計算機視覺使機器可以部分代替人力理解圖片中的資訊。計算機視覺還包含一些分支,主要包括物體識別、物件檢測、語義分割、運動和跟蹤、三維重建、視覺問答、動作識別等等,同時新的分支還在不斷出現。
現在比較熱門的視覺應用包括人臉識別、無人駕駛、語義分割等。語義分割在AI領域比較常見,一般指詞性的分割,或者詞的分割。而影象分割裡面的語義分割一般指的是把影象裡面的不同型別的物件進行標註和區分。
在機器識別領域,現在已經有很多比較成熟的特徵提取方法。比如邊緣檢測方法,圖片物件的區域性對稱性,尺度不變特徵,利用灰度的原理等等,這些演算法都能夠實現提取,但不存在最優方案。在影象分割和物件檢測領域也有一些其他演算法,例如分水嶺演算法,分水嶺顧名思義就是利用影象的灰度特性把這個影象整個灰度的曲線顯示出來。另外,物件檢測的常用演算法叫主觀形狀模型,比如以人臉為標準,人臉上有68個點,對這些點進行變換,再去實現匹配目標。
影象識別領域的發展經歷了CNN,R-CNN,Faster R-CNN等幾個階段。現在影象識別的流行趨勢會趨於大自然的發展邏輯,是一個大迴圈。那麼,基於這些科學實驗基礎,騰訊雲是如何支援AI應用的呢?以五四青年活動為例,它是解決影象匹配的一個活動。首先,從訓練資料開始,一般是民國時候的老照片,對它進行提取和標註資料,因為每個照片都有標註,就會生成模型。當使用者玩遊戲時上傳照片測試資料時,會進行特徵提取和建模,模型會返回一個分類,這個分數不是執行度,不完全可以參考。最後將會把一個分數最大的值返回到前端,生成頁面,這是整個流程。
再以人臉融合類的應用來看,比如軍裝照。它的流程首先會對影象的人臉部分進行關鍵點的定位,把人臉上的特徵提取出來,然後會對圖片進行一些旋轉,把它跟模版圖進行統一化。下一步會把上傳圖片的人臉部分根據特徵值摳出來,它就會跟模版圖進行融合。等融合後如果上傳照片的各種光線角度不完全一樣,再對圖片進行優化,把光影、曲線調得比較平緩,這樣就呈現了非常好的效果。
對於開發者來說,掌握了這些能力,在開發出一款有趣的應用之後,如何實現商業化落地?直接把它放在網上就可以讓使用者下載使用嗎?實際上遠沒有這麼簡單。現在的普遍做法是,都會採用雲服務,儘量不在物理集上部署。為什麼需要在雲上部署AI應用?因為這些應用一般都會有短時間達到特別高的峰值,持續一段時間會有很快的回落。如果通過自己的IT基礎設施來響應這些需求,在成本上會非常巨大,難以承擔,而利用公有云,可以把一些機器的成本釋放掉,這是目前從開發應用到實現收益的一整套通用商業流程。
目前,騰訊雲AI目前能夠支援的領域比較多。包括各種人臉合成、身份證識別、智慧監控、人臉軋機還有語音合成、關鍵詞搜尋等方面。同時,騰訊雲的機器學習的平臺可以幫助開發者們快速去實現模型。
最後,如何讓AI落地到具體場景中,除了技術層面,開發者們如何打磨產品讓使用者可以簡單的使用複雜的技術?通常來說,從有想法到落地是一個非常漫長的過程,它分非常多的環節。首先要有AI演算法的專家,同時要有AI工程實踐經驗豐富的人,最後,還要有更多的產品開發人員把它打磨成產品。
OCR的應用集錦及背後技術
OCR是近年比較火熱的領域。像身份證識別、車牌識別等都需要運用到OCR技術,而像身份證識別的場景又非常多。因此,OCR作為一項通用型的基礎技術,有非常廣泛的用途及商業價值。在很多需要人力資源來完成文字識別的工作,比如快遞行業的運單識別,保險行業的資料識別,通過OCR技術的利用實現了較大程度的生產力解放。對於開發者來說,藉助於OCR技術開放的API,即可完成在各種生活場景的應用開發。
騰訊AI資深技術專家冀永楠介紹說,OCR的歷史最早可以追溯到上世紀六七十年代,當時郵寄信件的郵編即是OCR服務的最早雛形。目前的OCR應用可以分為兩個維度,一是表格式的OCR和通用的OCR;二是印刷體和手寫體OCR。現在的階段,表格式相對容易、通用式相對困難;印刷體相對簡單,手寫體相對困難。
騰訊雲現在能夠提供多個場景中的印刷體OCR服務。在通用型的OCR場景中,除了證件,還能夠識別駕照、車牌、銀行卡、名片等等。另外,OCR服務要求準確,以及完備,即能夠識別中英文和字元。騰訊雲正在由常用語言和字元,例如中英文等往外擴散能力,將識別範圍更加擴大。
目前,在銀行業等對數字高敏度的行業,對OCR的應用廣泛且要求極高。騰訊不僅是第一家將手寫體應用在實際場景中的,而且數字的識別率也高達90%以上,單字的識別率在15毫秒以內,複雜漢字超過80%。騰訊雲的OCR服務在權威測評中表現也非常出眾。在國際模式識別協會(IAPR)舉辦的文件分析與識別、模式識別領域世界上最權威的國際學術會議ICDAR(International Conference on Document Analysis and Recognition,即國際文件分析與識別大會)上,騰訊OCR識別在ICDAR2015 「Focused Scene Text」場景文字識別任務、ICDAR 2015「Robust Reading Competition」的自然場景文字檢測專案中均得到第一名。
騰訊雲現在可提供基於各種場景下的OCR服務介面,開發者可以免費使用這些服務來搭建自己的應用。比如,開發者實際需要開發的一個具體場景的軟體,需要用到手寫體識別或者做一個通用的OCR識別時,可以直接在騰訊雲上呼叫對應的服務來完成應用開發。
騰訊雲OCR的應用場景很多,目前在快遞運單識別以及保單識別上有明確的目標客戶。類似於這種專案一般是定製化服務,都是針對性地解決一個具體的問題。騰訊雲根據具體場景下的問題和具體的生產流程來開發一套系統,或者開發一套流程來配合實際的業務,來提高生產效率。
以快遞運單識別為例,快遞手寫運單必須入庫才能進行投遞,人工識別錄入的效率很低,在運用騰訊雲的OCR系統之後,每日處理量可達到一千萬單,相當於三千多個人三班倒的工作效率。另一個案例是泰康核保,在通常的購買健康保險流程中,都會對購買者病史進行稽核,稽核包括購買者之前的體檢資料以及指定醫院的體驗資料,通過這些資料分析,來判定購買者身體狀況。現在的解決方案是使用騰訊雲的OCR,同時與泰康的醫療專家共同設計醫學知識庫加入到定製化系統。
除了以上兩個場景,騰訊雲在不同的OCR應用中還有江蘇銀行、小米等客戶。包括工商管理總局的廣告監督局也在使用騰訊雲OCR的多款服務。
智慧工地:履約考勤系統的應用實踐
在目前的智慧城市、智慧工地等領域的建設也充分應用了數字化技術。為響應交通運輸部公路品質工程建設的號召,工程建設需要加強四新技術的應用,包括新材料、新裝置、新技術以及新工具的應用。在工程專案相對靈活的突發的工作環境中,履約考勤系統往往承擔著較大的負荷,現在利用AI技術,就可以實現履約考勤管理的智慧化。而一般開發者也可以根據一般企業的需求利用AI技術來開發有特點的產品。
四川雲檢科技發展有限公司研發總監吳琛表示,針對智慧工地履約考勤系統的應用實踐主要分為六個部分,包括前沿、產品分析、系統架構、主要技術、功能分析、應用展望。當前的履約管理的作用是為專案建設工程、質量保駕護航。在實際的應用當中,履約考勤的物件包括施工單位的專案經理、總工、安全生產負責人、設計單位的駐地設計代表、試驗檢測工程師等一些重要的人員,它針對的是重要的人員而不是其他一般員工。
當前主流的考勤方案大約有7種,包括指紋考勤、ID卡考勤、紙卡鍾考勤、人臉識別考勤、虹膜識別、指靜脈識別、攝像考勤機。這些方案在實際應用中,在兼顧效率和避免冒名頂替方面都不是很理想。而因為工程建設與參建方的監督與被監督關係,決定了管理部門對履約人員資訊的真實性有更高的要求。
吳琛介紹說,通過用騰訊雲的AI技術,增加的雲端功能非常重要。比如,在施工現場普遍存在人員變更的情況,人員變更以前需要業主或者專案部自行變更,現在有了AI技術,變更的資訊可自動識別出來。目前考勤的智慧化主要從六個方面考慮,第一是確保在雲端;第二是基於AI;第三是基於雲端計算;第四是要連線大資料;第五是需要是移動應用;第六是支援智慧裝置。
同時,它還需要具備五個特點:一是具備人員人臉基本資訊的採集和錄入功能;二是能夠基於人員人臉資訊的自動識別、採集、比較;三是支援人員資訊與人員身份證資訊的核驗;四是支援考勤地點的設定及異常考勤位置的判斷;五是支援關鍵崗位的異常考勤資訊預警以及關鍵崗位缺勤資訊進行預警,支援對履約人員資訊變更進行線上管理。具備這些能力,就能在雲端對考勤的結果進行驗證,實現智慧化的考勤管理。
騰訊雲的智慧考勤主要包括四個主要技術方案。第一是人臉對比,騰訊雲的人臉對比是根據面部特徵計算兩張人臉的相似度,自動進行身份鑑別;第二是個人證核身的功能,騰訊雲的人證核身也是人臉核身,通過使用者自拍視訊或者一張自拍照與另外一張使用者事先留存的照片進行人臉驗證,確認使用者身份,主要用來幫助提升業務辦理效率,降低人力成本;第三是活體檢測,騰訊雲的活體檢測是通過人臉特徵點定位跟蹤識別進行3D人臉重建模型,判斷是否為真人,它支援多平臺,包括CPU、GPU計算模式,靈活部署;第四個是基於LBS的定位服務,通過電信移動運營商的無線電通訊網路,GSM,CDMA網獲取移動終端使用者的位置資訊,包括地理座標或者是大地座標。
吳琛介紹說,雲檢智慧履約考勤系統目前能夠實現考勤資料的動態分析,包括對缺崗異常的資料實現實時預警的功能。主要有四個功能:一是人臉識別考勤機,主要作用是前端資料採集,包括人員資訊登記,人臉考勤以及資料上傳;二是用到移動端的APP,主要用於人臉考勤、人證核身;三是履約考勤管理雲平臺,主要是針對考勤管理、審批管理、統計分析、系統設定等;四是用到API,提供移動APP呼叫應用程式的介面,主要是騰訊雲技術服務以及人工智慧當中的人臉對比,人證核身的這類應用。
除了智慧工地領域,人臉識別解決方案在很多場景中應用非常廣泛。隨著技術的發展、市場擴大,人臉識別技術在現實生活中發揮的價值及作用也越來越大。
遊戲中的AI技術應用
對遊戲AI的理解因為身份的差異,其目標各有不同。對遊戲開發者而言,運用AI是為了增進使用者體驗,增加玩家活躍度。現在幾乎每款遊戲都有運用AI,比如說射擊類遊戲會有地圖,如果有一個非常好的AI幫助玩家去探索地圖會非常節省時間,因此AI對於小遊戲開發者來說非常重要。
騰訊高階研究員王亮介紹說,業界的遊戲AI技術常用的方法一般是三種。一是行為樹;二是基於搜尋方法;三是基於學習的方法。今年遊戲行業最有影響的是Dota2,它在5個特定英雄等限制條件下的AI能力能夠超過90%的玩家,它就是採用強化學習的方法,其它的很多主流遊戲都在嘗試使用強化學習解決。
以風靡的王者榮耀為例,MOBA遊戲AI的做法和遇到的問題有哪些?因為王者榮耀是一款實時對戰的遊戲,以競技對戰為主,複雜程度表現在英雄角色會非常多,也會帶來很多關於AI的複雜問題。第一是MOBA類遊戲操作序列及狀態空間非常大;第二是遊戲包含很多知識,如何去表達;第三是MOBA決策問題複雜度高。
對於這些問題,解決方案方案分為三個方面。一是引入框架進行分層,對任務分層和場景切分;二是引入了多模態的特徵表達方式;三是採用多深度學習模型結合。
瞭解了基本情況後,在遊戲AI開發的時候還會遇到很多坑。在遊戲開發階段需要什麼樣的環境?第一個需要環境是模擬器的問題。目前主要是基於這個環境來調優。AI接入可以使用基於伺服器架構,遊戲引擎跟演算法引擎是分開的,而它們之間是通過通訊的方式來進行處理的,它的優點是遊戲引擎跟模型進行偶合,並且支援線上學習,因此可以不斷強化和更新版本。
就整個遊戲AI領域來說,主要是強化學習。與之前最顯著的變化就是——以前是基於規則,現在主要基於學習來開發研究。而如果是基於深度學習的方式,就至少要提供相關的環境給開發人員,以及怎麼更新迭代。另外,現在的遊戲AI還是比較有難度,但同時也充滿機會。
乳腺癌識別中運用的AI技術
隨著時代的進步和經濟發展,人們的健康意識越來越高,同時伴隨著AI技術的發展,AI醫療理所應當地成為了網際網路行業內的風口。
騰訊覓影高階研究員江鋮表示,騰訊最近正式對外發布了AI乳腺癌症診斷系統。選擇乳腺癌這個領域有兩個考慮,一是因為對於女性來說乳腺癌是所有腫瘤當中發病率最高的一種,發病率約在16%-17%之間,嚴重危害女性的健康;二是因為乳腺癌雖然發病率很高,但是治癒率是較好。如果在較早期發現治癒的可能性非常高,對於美國來說目前五年的生存率是在89%,而中國只有83%。這主要是因為中國人口基數過多,有經驗的看片醫生較為缺乏,而目前應用AI技術就能夠有效緩解這個矛盾,最大限度地幫助患者和醫生。
現在對乳腺癌的診斷主要依賴超聲、鉬靶、核磁共振、病理和基因等,騰訊雲的目標是能夠把這些資料模態有機結合起來,形成一個完整的體系,從而提高對乳腺癌的診療技術。當前最主流和有效的篩查診斷方式是鉬靶,騰訊的AI鉬靶乳腺癌診斷系統已經發布,並已經落地到30多家三甲醫院進行試用。
騰訊雲在乳腺鉬靶主要實現了三方面的功能。第一是實現了疑似病灶的定位;第二是提供乳房的良惡性判定;第三是能夠自動生成影像報告。
這三方面的功能是如何實現的呢?主要基於一個包括三個維度的技術框架。其中架構前端是鉬靶影像的前處理層;中間層是AI學習模型;最後是通過醫生反饋對前兩部分進行的動態更新。
在中間層AI學習模型上,騰訊雲單獨設計的方案有四個突出優點。第一是傳統的網路輸入通常都是單圖輸入,而現在的方案可實現對左右乳進行對比的四張圖同時輸入;第二是採用多尺度網路,使得圖片輸入網路前無須縮放;第三是漸進式的網路構建,這種方式類似大腦學習過程,它把疑難問題分解成若干個相對簡單的問題然後逐個解決,在構建網路時由區域性到整體,由單幅影象到多幅影象;第四是自步學習的訓練方式,類似於大腦由易到難的學習方式,先將訓練的樣本按難易程度進行分類,在訓練過程當中由易到難逐步把樣本加進去,對模型進行多輪訓練,這可以讓模型達到最好效果。
除了基礎模型,根據醫生的反饋,對於新接入醫院的資料會對模型進行遷移學習,實現動態更新。在模型訓練的過程中,一個重要發現是——AI見過的疑難病例的數量和種類很大程度上決定了AI系統的上限。為此定期從資料庫和線上資料中挖掘有價值的疑難病例,並進行標註。同時,其中的一部分病倒還會與三甲醫院專家討論,利用病理或者其他資料進行交叉確認。
現在,騰訊鉬靶AI模型已經達到了非常高的精度。其中,腫塊探測方面可以達到90.2%@0.2FP;鈣化檢測精度更高,可以達到99%@0.2FP;對於良惡性分類,可以達到87%的敏感度和96%的特異度。除了鉬靶外,現在對病理方面也開展了相應的研究。目前乳腺癌病理研究主要解決兩方面,第一個是功能組織學分級,即定義惡性腫瘤惡性的程度,它包含核分裂計數、核多行性打分、腺管形成程度三項內容;第二是免疫組化,使用不同染色片進行分子分型研究。對於已經完成的有絲分裂部分,在學術界TUPAC專業比賽上,之前的冠軍F1 score分值為0.73,現在騰訊的鉬靶AI系統可以達到0.82,提升很明顯。
這個精度的提升是歸功於三方面的技術。第一點是使用了計算機的難例挖掘方式。經過多輪迭代然後在每一輪次對樣本進行整理,由專家確認較難的標註,再放入樣本當中進一步學習;第二點是影象的歸一化,通過使用對抗網路將影象做歸一化,達到提升;第三點是在速度上改進,拋棄原始計算機視覺當中將一整幅圖切分的方式,採用共享計算和模型壓縮的效果,讓一幅病理片可以達到0.5秒級的處理速度,基本上接近於實時。
在核磁共振方面,騰訊也進行了相應的研究,開發了一種半自動的高效病灶標註工具。除此以外,騰訊還在超聲方向投入人力,擴充研究邊界,目前已經完成了資料準備工作。後期將繼續對各模態資料展開深入研究,致力於把多模態的資料有機結合起來,造福患者和醫生。
江鋮的演講之後,已經是傍晚時刻,現場開發者參與提問和交流的熱情依然不減。此次沙龍活動,現場五位專家的演講都聚焦在AI具體場景的應用案例,不僅給開發者們帶來了理念上的啟迪,同時騰訊雲開放的AI能力也能夠實質性地幫助開發者們實現便捷開發,把AI技術擴散到更多的應用場景中。
問答
相關閱讀
此文已由作者授權騰訊雲+社群釋出,原文連結:https://cloud.tencent.com/developer/article/1173931?fromSource=waitui
歡迎大家前往騰訊雲+社群或關注雲加社群微信公眾號(QcloudCommunity),第一時間獲取更多海量技術實踐乾貨哦~
海量技術實踐經驗,盡在雲加社群!