讓看不見的AI演算法,助你拿下看得見的廣闊市場

個推發表於2019-01-17

人工智慧技術的飛速發展給各行各業都帶來了深遠的影響,AI已被視為企業提升運營效能、應對市場競爭的必經之路。然而對於一些企業而言,讓AI真正實現落地和應用,並且創造價值,仍是一件需要努力的事情。

近日,在個推技術沙龍TechDay深圳站,來自華為、個推、SheIn的技術大拿們在現場,對AI核心技術進行了深入的探討。

常越峰 《淺談AI工具鏈》

個推大資料研發高階主管
AI在生產環境落地的整個過程中,通常會遇到三個挑戰:

第一,業務場景複雜。簡單的一個演算法也許只能優化某個環節,但整個業務場景的優化可能需要許多演算法的相互配合。

第二,資料問題。資料是AI的重要支撐之一,許多企業都欠缺獲取高質量、有標註資料的能力。

第三,技術問題。在AI落地的過程所遇到的技術問題,有四個核心:1)CPU / GPU環境的排程和管理複雜。2)AI業務的開發人員們需要一個低門檻的實驗平臺,使其能夠進行快速的探索實驗。3)擁有大規模資料的企業,需要工業級大規模分散式訓練,來保證演算法能夠應用於全量資料中。4)企業需要提供低延遲的線上服務。

人工智慧最核心的是資料,而資料可以分為兩個部分,實時資料和離線資料。個推使用Hive方案進行離線資料的儲存,注重資料的容量和擴充套件性;而線上使用者對延時非常在意,所以個推會使用高效能KV庫,保證線上特徵能夠及時地被訪問到。

在解決了基礎的資料儲存和使用問題之後,對於AI落地過程中的技術問題,個推內部支援端到端的服務,能夠使用標準化流程快速進行實踐探索。個推也自研了一些外掛和產品包,簡化流程步驟和複雜度,幫助經驗較少的開發者也可以在較短的時間內搭建系統。最後,個推還支援了部署釋出的工具,讓訓練的成果能夠通過標準化的方式匯出到線上,進行服務部署,真正地線上上產生價值。

在小微企業AI落地實踐的過程中,可以使用Kubeflow等開源技術棧。首先,環境的管理與排程可以使用Kubernates作為分散式環境標準;Jupyter +開源資料分析工具包+ AI框架可以進行低門檻的快速探索實驗;Kubeflow + Tensorflow / PyTorch / MXNet可以快速地部署大規模的分散式訓練;最後,藉助Kubernates提供的快速部署、上線、擴縮容的能力,可以提供高可用的線上服務。

而在AI實際落地時,企業則需要注意以下三點:

第一,快與高效。企業可以藉助開源工具快速落地業務,同時也要注意沉澱流程和垂直領域。

第二,整合打通。Kubernates方案並不是唯一的選擇,企業需要考慮自身情況,與已有系統進行對接,選擇適合自身的方案。

第三,團隊建設。各個技術部門之間需要進行高效的配合,企業也可以引導研發工程師逐漸地融入AI領域。

馬興國 《個性化推薦閒聊》

SheIn 產品研發中心 副總經理
對於企業來說,如果想要做好AI個性化產品的業務,只有演算法工程師是不夠的,還需要工程、資料分析人員的支援,以及產品、運營人員的助力。

當企業涉及到的業務較多時,也可以將業務進行通用處理,即建設偏向系統層面的推薦平臺。該推薦平臺需要資料、演算法和系統的共同配合。推薦平臺的接入,可以帶來三點功能:第一,企業在進行物料同步時,可以做到格式統一,並且同步增量和全量;第二,平臺在處理使用者的服務請求時,可以做到標準化、高效能和智慧化;第三,平臺可以格式統一、實時、離線地上報使用者行為。

簡單的機器學習過程是搭建環境、收集資料、分析資料、準備資料、訓練演算法、測試演算法和使用演算法。在這個過程中也隱藏著許多問題,比如如何解決冷啟動問題,如何解決假曝光問題,如何清洗異常資料,如何選擇正負樣本,如何解決資料稀疏問題,如何從億級特徵中選擇顯著特徵等。

在機器學習的過程中,資料是基礎,理想的狀態是資料的數量大且特徵完備。收集資料有“推”和“拉”兩種方式,“拉”即是爬蟲,“推”就是上報。而分析資料則是分析目標分佈、特徵分佈、目標特徵關係、特徵間的關係和完整性等。分析資料的方式有離線分析、實時分析和融合分析,分析工具則可以在Excle、Shell(awk)、Python、Mysql、Hadoop、Spark、Matlab…當中進行選擇。清洗資料需要清洗系統髒資料、業務髒資料和目標外資料。格式化資料則需要進行資料變換、取樣和稀疏處理。

而機器學習可以選擇的演算法模型較多,如熱度、貝葉斯、關聯規則、LR、GBDT、AR、CF(ALS)等等。

在演算法模型中,特徵工程也是非常重要的一部分。其中,特徵物件有物料、使用者和上下文;特徵型別有靜態特徵、動態特徵、表徵特徵、列舉特徵、實數特徵等;特徵維度則有一階獨立特徵、二階交叉特徵和多階交叉特徵。特徵的選擇也是一件需要注意的事情,企業可以在過濾型、包裹型和嵌入型三種特徵進行選擇,同時,企業還需要在前向、後向和StepWise三種特徵過程型別中進行選擇。

演算法的最後還需要進行效果評估、多維度評估、實時評估和離線評估。企業還需要注意到,沒有一勞永逸的模型,演算法需要進行持續的關注和運營。

合適環境的搭建也是演算法能夠正常執行的保障之一。演算法的環境需要標準化、配置化、可擴充套件、高效能,同時支援立體監控和效果提升,保證使用者體驗。

聶鵬鶴 《AI識別,從影像到人臉》

華為演算法工程師
在計算機領域,上世紀90年代就有人嘗試,將影像的特徵和識別的過程,通過人類的規則同步給計算機,讓計算機進行“影像識別”。一直到了2012、13年,人們發現,對傳統神經網路的結構方式做一些小的變化,能夠大幅度地提升計算機進行影像識別的可操作性,這個改善後的神經網路被稱為卷積神經網路(CNN)。CNN進行影像處理的本質是資訊提取,也被稱為自動的特徵工程,即通過巨大的神經網路一步步地抽取到關鍵的影像特徵,從而達到影像識別的目的。

而人臉識別則是一種基於人的臉部特徵資訊,進行身份識別的生物識別技術。現如今,人臉識別已經可以有效地對使用者身份進行識別,並且被廣泛地應用於支付、安檢、考勤等場景。而隨著人臉資料系統的建設,人臉識別也將成為反欺詐、風控等的有效手段之一,能夠極大地縮短身份稽核的確認時間。

人臉識別最大的優點是非接觸性,可以隱蔽操作,這使得它能夠適用於安全問題、罪犯監控與抓逃應用。同時,非接觸性的資訊採集沒有侵犯性,容易被大眾接受。而人臉識別方便、快捷、強大的事後追蹤能力,也符合人類的識別習慣。人臉識別的不足之處,在於不同人臉的相似性小,同時識別效能受外界條件的影響大。

人臉識別的步驟主要包括人臉檢測、人臉對齊校準、人臉特徵提取、人臉特徵模型建立、人臉特徵匹配以及人臉識別結果的輸出。

其中,人臉檢測的目標是找出影像中,人臉所對應的位置,演算法輸出的則是人臉外接矩形在影像中的座標,可能還包括姿態,如傾斜角度等資訊。

人臉識別的第二步是人臉對齊,它需要在保證人臉的特徵等要素沒有發生扭曲和變化的前提下進行使用,在這樣的情況下,輸出的人臉距離才能與後期的模型進行有效對比。

人臉識別的最後一步是人臉匹配,在網路足夠大,樣本足夠豐富的情況下,人臉匹配的準確率會非常高。

在人臉識別的領域,深度學習網路的發展會越來越好。深度學習有其相應的優勢,它強調了資料的抽象和特徵的自動學習,並且它的自主學習特徵更為可靠。

相關文章