達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

達觀資料發表於2018-10-31

人工智慧的浪潮遍及各行各業,隨著自然語言處理技術的發展,計算機對文字的處理也進展到了一個新的層次,什麼是文字智慧?怎樣在產品中找到人工智慧可賦能的場景?當ai遇上產品設計,又將碰撞出怎樣的火花?

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

什麼是文字智慧達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

文字智慧通俗來講,是計算機像人類一樣理解自然語言。

“冬天,能穿多少穿多少。夏天,能穿多少穿多少。”

“中國足球隊,誰都打不過。中國乒乓球隊,誰都打不過”。

人類看一眼就知道什麼意思,對計算機來說則困難重重。因為人的表達方式千變萬化,短詞彙可以傳達非常寬泛的語義資訊。

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

現在的文字智慧處在什麼層面?

人工智慧的分類層次,第一層“運算智慧”。計算是計算機的強項,透過分散式系統及高效能的CPU、GPU可以很好解決。

第二層“感知智慧”。感知是在更多聽覺、視覺、觸覺等方面的創新。

文字智慧處於第三層:認知智慧。研究如何進行自然語言理解、知識的構建和邏輯推理。

第四層“建立智慧”,人工智慧行業終極目標。

文字也可以分成兩種型別,一種是書面文字,承載的形式為網頁、word、txt或pdf。 另外一種則是日常交流的口語形式。達觀專注於第一種。

一份簡歷、一份合同、一份上市公司的債券募集說明書、一條評論都可以算書面文字。

面對一篇文字,我們能做什麼呢?

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

一,拆解。像庖丁解牛一樣把文件結構化。

簡歷的姓名、照片、工作經歷、教育背景;合同中交易的甲乙方、合同標的物、付款方式、條款;新聞的標題、摘要、來源、正文、關鍵人物、事件,組織機構名稱,都是對文字拆解後抽取到的資訊。

抽取是文字處理中最重要和實用的技術。抽取出合同中的“付款方式”之後,業務方才能夠去進一步稽核“付款方式”是否符合法律法規。

二,聯接。對多個文字進行庖丁解牛式的拆解,相關知識就能聯接形成一個巨大的知識網。

對標到知識圖譜新聞中的人、事、物、關係,公司年報中的出現的公司名稱及關係都可以作為文字智慧處理的大腦和背景知識,在知識網路上進行邏輯推理和判斷。

三,生成。生成是學術界研究的熱點,在當前階段是非常困難的事情。騰訊的Dreamwriter,今日頭條的xiaomingbot都在嘗試用機器創作短新聞。

接下來我們具體看一些文字智慧的例子。

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

根據一篇新聞資訊,生成不同長度的摘要,主要有兩種技術手段:抽取式和生成式。

給定一個使用者評論,提取出標籤資訊和觀點,屬於一個短文字處理

文字分類和情感識別:在文字質量管控和輿情分析方面使用較多。

文字稽核也是分類的一種,涉黃涉政及判斷是否是廣告,是每一個做網際網路產品的公司比較頭疼的事。

下面是金融行業的債券募集說明書。

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

這樣一個文件中,行業研究人員比較關注公司高管資訊,比如姓名、公司職位。在債券募集說明書中收購標的是哪些,包括資產、標的業務、標的所在行業是否涉外、交易對手是否涉外、各類財務指標等。

一般債券募集說明書從100到500頁不等,讓人從這麼長的文件中找到這些關鍵資訊,非常容易出錯。

在公開的金融資訊網站上,債券募集說明書非常多,一個金融從業人員不可能在短時間內把每篇文章內的資訊都抽取出來。

所以在整個領域來說,文字智慧處理出現了非常大的機會。這也受益於演算法的進步,特別是深度神經網路從圖片識別領域到文字處理的遷移

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

促成文字智慧處理飛速發展的原因很多。

最近Google 的bert模型刷遍AI界朋友圈:NLP歷史突破,谷歌BERT模型狂破11項記錄,全面超越人類演算法層面一直在不斷取得很大的創新和進步是主要因素。

第二因素是計算能力,如分散式系統,GPU等應用。

第三因素是語料庫的積累,網際網路行業,可以透過多種手段迅速積累語料庫,傳統企業也有資料積累,但量級無法與網際網路比。

文字智慧處理的需求遍及各行各業。只要存在文書處理工作的行業,都有文字智慧處理的需求,金融、法律、政府行業,媒體、網際網路,大型企業等。

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

設計思維和機器學習

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

掌握AI演算法和基於AI演算法設計產品之間的距離是非常大的,如同從火藥到火藥槍、從鈾到核炸彈、從硝化甘油到C4的區別。

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

怎樣才能基於這個AI演算法設計產品呢?達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

產品經理的思維是從使用者、場景和需求三要素出發。

要給客戶解決什麼問題、目標客戶如何刻畫、客戶在什麼樣的場景下會使用我們的產品、怎麼用一系列問題,需要產品系統的思考。

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

設計思維的六個步驟重點包括:啟發、構思和實施。

機器學習的流程,是對要解決的問題定義好後,對資料加工處理,提取特徵,進行演算法選擇,從而確定可使用的模型。

當這些模型滿足上線要求或業務要求以後,我們把模型放到線上系統中。當新接受到的資料進行同樣的處理後,用訓練出來的模型來判斷是否屬於垃圾郵件。

演算法接受不同的資料可以訓練出不同的模型。整個過程是迭代最佳化,因為資料的分佈蘊含的特徵可能隨著業務的不斷髮展在產生改變。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

設計思維是以使用者為中心,強調敏捷開發、快速迭代。

機器學習是以資料為中心,強調資料+模型閉環驅動。

兩者怎麼樣進行深度的融合,是在人工智慧時代下對產品經理能力模型的要求。

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

這兩年AI的宣傳,特別是AlphaGO的普及作用,我們感受到每一個行業都會被人工智慧技術所影響,任何職業都會受到影響。

但AI到了無所不能的地步嗎?

顯然不是。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

AI對行業或職業影響的有多大,很大程度上,是取決於這個領域技術的成熟度和邊界在哪。

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐比如文字處理領域,針對文字處理技術評估可以分為3類:可用 、基本可用、難以應用。

達到人類水準的有垃圾內容的檢測、主題分類、文字相似度分析、對詞性進行標註。

基本可用但仍存在缺陷的,比如關鍵短語生成、實體連結、機器翻譯、語義消歧。

難以應用,包括多輪對話、QA問答、內容改寫等。

當產品經理在設計一個基於文字智慧的產品時,要考慮這項技術處於什麼類別。類別決定技術用到最真實場景時、場景對準確度的要求。

例如自動駕駛或無人駕駛,場景容錯率是零,因為輕則車毀,重則人亡。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

保守一點講,我們還處於AI的初級階段,AI的常識邏輯邏輯推理能力都還很弱。但在日常生活中人類已經享受到了AI帶來的價值。

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

如何找到AI賦能的場景

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

那麼,該如何找到AI賦能的場景,讓演算法專家、行業專家和應用開發專家三種角色的合作使人工智慧落地呢?

找到這個場景的前提是需要思考,運用AI產品和解決方案的本質什麼。

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

首先,應用可以分為兩類:網際網路行業應用企業級應用

在網際網路行業應用,無論是搜尋、推薦系統、廣告,提升的是過程中資訊傳遞的效率。在企業級應用上,主要是提升生產效率和創造新價值。

提到AI產品和解決方案,當我們將它們服務於我們企業級場景的時候,它的核心是在提升生產效率。

產品需要找到在當前的業務流程中,生產效率到底出現什麼問題,或哪個環節希望藉助AI技術進行生產效率的提升、節省人力。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

這些可以分四個步驟做,演算法開發人員也是站在這四步實現程式碼:

1)流程拆解

對當前的工作流程或業務場景進行詳細拆解,診斷阻礙生產效率的最大問題,對核心問題進行拆解。

2)資料評估

如果想解決問題,公司的哪些資料是跟這個問題相關的;有沒有資料;如果有資料,這些資料的質量怎樣;缺不缺資料,如果缺資料,這部分資料可不可以透過外部採購,或跟其他的應用、產品進行連線後獲得。這些都是在資料評估階段要考慮的問題。

3)方案設計

方案設計是針對當前的資料現狀去完善基礎資料,選擇可能存在的AI演算法是什麼。比如進行垃圾分類,有很多分類演算法可以採納:貝葉斯模型、SVM邏輯迴歸。

第三點比較重要,很多時候人不知道演算法的效果怎樣,如果工具能夠幫助我們進行快速的測試,會很快的驗證和最佳化方案。

4)有機整合

當設計好解決方案以後,準確率是可接受的,這時考慮這項服務或應用怎麼跟現有的系統進行結合。

大體來看有兩種方式,一種方式基於AI,做獨立的產品,在這個產品中有這項功能;第二種是一種以API介面的方式和業務進行打通。系統上線以後,怎麼做模型升級、怎麼做維護,也是我們面臨的挑戰的問題。

概括來講,想找到AI能夠賦能或落地的場景,需要對流程進行拆解,然後評估資料,進行AI方案的設計,最後和系統進行有機整合。

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

如果對差旅的報銷流程進行梳理,共有五個環節:

第一,整理出差待報銷的發票。第二,填寫報銷申請表。第三,上傳遞交的票據 ,第四,財務部門進行稽核,第五,最終稽核透過。

對流程進行拆解,第一步,整理出差待報銷的發票。要先根據票據的型別進行分類,分好類分別計算各個票據的金額,交通、住宿,進行彙總。第四個環節,財務部門要核對申請表上的金額與提交的紙質票據的原件是否一致。

當對流程進行拆分以後,就可以進行AI技術的評估。比如票據型別分類,能不能透過OCR技術。

當對進行各項金額計算時,能否透過文字關鍵資訊提取技術把金額自動提取出來,進行彙總計算。填寫報銷申請表時,能否根據資料介面的方式自動傳達財務部門的稽核系統中。同樣,透過文字內容關鍵資訊提取技術,把提取出來的數字和使用者上傳過來的數字進行復核,來判斷是否透過。

這幾項AI技術幫助賦能,在這個環節中,我們需要哪些資料?


第一環節需要報銷的原件,第四個環節既需要原件,又需要申請表。透過這樣的方式,我們找到了AI落地的場景點,並明白了技術在裡面可以做到什麼程度,同時讓業務方也瞭解到了這項技術確實是可以落地的。

達觀資料做的智慧文字稽核系統,也是按照同樣的方式,對從合同起草、初步審閱、迭代修改、合同履行、合同歸檔幾個步驟進行詳細的拆解。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

透過拆解可以發現三個場景充分利用文字智慧技術

第一,合同的差異比對。合同有不同的版本,且不同的版本是內部不同的人配合協作的,有時還涉及到外部的諮詢公司。

第二,合同條款的讀取。當我們進行稽核時,需要公司的法務人員對合同進行閱讀,找出需要稽核的條款進行法律法規的判定。

第三,合同稽核。

找到這三個點以後,明確了提供AI產品價值是提升效率,幫助法務部門控制風險。

當我們找到可以AI賦能的場景後,我們需要遵循什麼樣的原則去設計產品和解決方案呢?


達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

AI產品設計原則

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

我們先來看下傳統軟體設計AI驅動軟體的差別。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

傳統軟體設計,設計過程注重的因果、邏輯設計一個OA系統,要考慮員工辦公流程、每個流程要達到的目標是什麼、功能實現最短路徑。如果有輸入不符合預期時,傳統軟體產品時,開發工程師比較容易重現BUG和解決問題。

AI驅動的軟體,重點需要考慮的是結果不確定性、逼近最佳化目標。

比如合同條款讀取,透過歷史的合同資料,已經能夠訓練出文字智慧模型,可以對某些欄位進行抽取,假對某個欄位的抽取準確率是98%,在歷史合同資料中這個非常高的準確率了,站在業務方來評估,也基本能夠滿足上線要求。但當系統上線以後,對新的一份合同,也許沒有抽取出來。又來一份新的合同,也許就抽取正確了。

對AI演算法來說,準確率98%是站在資料集的角度考慮的,但真正把模型或產品應用到業務系統中,業務人員面對的是一份一份的資料。

另外,最佳化目標是個逼近的過程,過程是上下起伏的,總效果是逼近目標的。就像人喝醉酒後回家一樣,搖搖晃晃,有時多走了幾步,但是還是往家的方向走。

可這種情況,對產品的使用者怎麼辦?


使用者知道產品在最佳化,但使用過程中還是會出現錯誤。最佳化的過程有起伏,使用者被告知針對目前的問題,上了一個新的版本,新版本的準確率由98%提升到99%,可在真正使用時,可能發現連續3份合同抽取錯誤了。這種情況下業務方很難接受,因為他們對AI演算法本身不是太理解。作為產品經理,這是一個需要解決的問題。

對AI產品,大家總是期望主動表現出智慧型,對於這種需求,UI設計和功能設計都是可以起到作用的。對於功能性,有4點比較重要。

第一,怎麼設計“消除不確定性”。AI演算法的流程和處理方式就決定了它存在的不確定性。產品要透過各種方式來攤銷或消除不確定性,或存在不確定性時有合適的處理方式。

第二,“注重學習反饋”。演算法的智慧很大一部分來自資料,也來自使用者的反饋。當新的資料來源源不斷進來後,透過我們產品的介面設計糾正錯誤後,產品怎麼接受這種反饋,實現自我演化。

第三,“使用人機互動”。使用者的反饋透過怎麼樣的互動方式來體現?可以讓使用者先試用一段時間,基於這段時間出一個報表,在報表把系統處理的各項錯誤羅列出來,使用者透過離線方式進行批次的修改確認,把修改的結果匯入到系統中重新訓練模型,這是一種人機互動能否線上實時處理掉,也是一個非常重要的問題。有時產品認為使用者透過人機互動方式進行了反饋,也許因為產品功能設計得不夠友好,使用者誤點了。要區分哪些真正有價值的反饋,哪些是需要消除的噪音

第四,“注重檢測錯誤”。準確率不是100%的情況下,線上系統的錯誤處理和運維是非常具有挑戰的。尤其是當線上資料具備高度機密性的情況下,線上系統處理的資料不可能匯出到測試環境中讓AI人員去研究復現時,怎麼辦?達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

理想的結果是交付一個AI產品,可以不斷的最佳化、迭代,越來越聰明,成為一個動態的AI系統,而不是靜態的。

AI也重新定義了產品設計開發流程。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

圖的上面跟機器學習演算法相關,識別問題、獲取資料,進行模型訓練、模型管理。模型之間有不斷的版本迭代,我們要進行模型的部署,上線以後模型要去適應新資料的變化。

下面是站在開發角度,怎樣去進行需求建模、架構設計、軟體設計、怎樣對AI產品進行開發測試、上線以後的維護。

當系統上線後,使用者就是用來處理資料的,新的資料來源源不斷,可能會出錯,系統會產生行為的異常,使用者看到錯誤時會跟系統進行人機互動,把自己的反饋提出來。

有時使用者有自己的專業知識、行業知識,把自己的行業知識傳授給AI系統,讓它更加聰明。除了自我演化外,也透過接收外部資訊的方式增強自己的智慧。如果把這種視角加進來,可以讓AI產品站在宏觀角度把握各環節,從而指導我們設計出更好的產品。

那麼達觀的合同智慧稽核系統是包含哪些功能元件來逐步達成目標的?

右邊是我們的功能圖,大概有8項功能、34個子功能,左邊對功能進行了2個大的分類,上面是做資訊抽取、版本比對、風險稽核、糾錯、合同分類、合同知識的搜尋和推薦。下面還有強化的機器學習平臺、模型自主訓練。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

AI產品這兩種不同型別的功能結合在一起,有了下面這部分,技術提供方或客戶IT團隊,可以藉助這個平臺讓AI系統進行動態演化。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

舉兩個例子展示怎樣透過產品進行合同條款的抽取和進行規則稽核。

場景一是合同關鍵資訊的抽取。

共分為5步,前2步是預先做好的。根據客戶已有的歷史合同資料去訓練AI模型,讓AI模型識別不同型別的合同,就不同型別合同中的關鍵要素進行自動抽取,做好這2步後預置到產品平臺中去。

對使用者來說,是三步完成:上傳到合同文件、機器進行自動關鍵詞提取、提取結果呈現。形成這樣一個關鍵資訊抽取的報告,法務人員可以對報告一目瞭然。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

場景二是合同風險進行稽核。

前兩步也是預置到產品中,針對各個不同的合同型別,根據業務方設計合同稽核項,對每個合同型別的風險點都配置好,機器模型可以自主的進行學習和訓練。

業務方上傳合同文件,機器可以進行自動處理,並給出些建議。

稽核結果中包含針對這個合同,有哪些是必改問題、有哪些是缺失條款、有哪些是建議最佳化的,都可以滿足。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

這是我們產品的全景圖,展示了AI的幾個不可缺失的關鍵要素,只有保證這幾個要素後,提供的產品時才能夠消除由AI演算法帶來的不確定性。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

客戶是不可能為不確定性買單的。如果交付了一個產品,客戶問準確率是多少,答“看資料情況吧”,客戶又問系統上線使用時撞戶率有多高,答“這個我也不清楚,需要新的線上資料判斷”,任何一個客戶都不會為不確定性的回答買單。

最後一部分,如何進行產品價值的評估。

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

如何進行產品價值評估?

達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

針對上面的合同智慧處理,我們瞭解到:

對不同的合同,原本透過人工閱讀的方式進行稽核,處理時間基本是在小時級。引入智慧合同審閱平臺以後,整個過程從待審閱合同、智慧合同審閱到人工複查,從小時級變成分鐘級。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

從價值來說,一,提升效率、降低成本。二,降低風險。三,把長期非結構化文件的管理問題很好的管理起來。

合同評估對於AI產品有兩個層面:

一,演算法層面的評估。更多的是面向AI演算法和研發人員,比如準確率、召回率,F1值。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

機器翻譯、智慧客服、多輪對話、搜尋、推薦、文字抽取等在演算法層面都有不同的指標,對業務方很難講明白準確率是多少,使用者很難把準確率和它的業務價值對映起來。

評價的維度也非常多,取決於業務方怎麼看待這個產品以及透過這個產品達到什麼目標。

有時客戶的期望是透過AI的產品提升人員的工作效率、降低出錯。有的客戶使用AI的產品專注在創新。達觀資料副總裁賈學鋒:基於文字智慧技術的AI產品設計實踐

不管做to C還是to B都是圍繞使用者進行服務的,有一個經典的模型叫“AARRR”:怎麼獲取使用者、啟用、留存、商業變現、使用者幫助評估。

在這個場景實現AI落地,針對這幾個不同的環節,到底帶來哪些業務價值上的提升:是新的獲客數量增加了、轉化率提升了,還是某項產品的營業額收入增加了。

一,節省人力。二,創造新價值。這是我們希望AI產品能夠達到的理想目標。

以上是我想給大家分享的多年做AI產品設計和專案交付的經驗,謝謝大家!

作者:賈學鋒 達觀資料副總裁

負責AI解決方案及產品設計。復旦大學計算機系碩士畢業,擁有10+年研發及AI產品設計經驗。復旦畢業後工作於SAP中國研究院擔任Design&NewApplication部門的高階研發經理,帶領資料創新團隊圍繞多個行業構建了多個新一代企業級智慧產品。

後加入阿里巴巴,擔任大資料創新產品負責人,參與“移動網際網路+零售”新商業模式,基於阿里的海量資料構建面向實體商業的營銷平臺。

在加入達觀前,在萬達網路科技集團擔任高階管理職務負責集團資源的商業化,管理商業化產品和技術團隊,以消費者為核心,利用資料和人工智慧技術實現全場景營銷平臺。

相關文章