前兩篇文章,我們介紹了“關鍵詞+正則”質檢方式和全新的“非正則”質檢方式的區別,也介紹了兩種機器質檢方式各自適配的場景。
雙模質檢,各司其職。“非正則”質檢方式通過引入深度學習演算法模型,能夠更好地利用上下文語義來判斷一個句子是否命中了質檢項,顯著提升找全率(術語“召回率”)和找準率(術語“準確率”)。同時,由於深度學習演算法模型對訓練資料量有要求,因此“非正則”方式更適合目標通話量較多的質檢項,而目標通話量過少的質檢項,無法訓練出好的演算法模型,需要繼續使用“關鍵詞+正則”的方式。
今天,我們進一步分析,如何對不同的質檢項採取不同的優化策略,使機器質檢和人工複檢更好地平衡,提升整體質檢工作的效率。
召回率和準確率的關係
我們希望每個質檢項所命中的目標通話又全又準。這也是迴圈智慧的質檢產品引入“非正則”模式的原因。
但在優化質檢項的命中效果時,當召回率和準確率都達到了一定的高度,想要繼續提升,難免會遇到“二選一”的問題:召回率和準確率互相影響、此消彼長,一個指標增長,另一個指標通常就會下降。
在實際應用中,大部分企業的業務流程是“機器質檢+人工複檢”:將機器質檢的結果交給人工做複檢。因此,機器質檢的召回率和準確率變化,會影響到人工複檢的成本:
提升召回率(適當犧牲準確率),意味著降低“漏檢”的風險,但可能會增加“誤檢”帶來的人工複檢成本;
提升準確率(適當犧牲召回率),意味著降低“誤檢”帶來的人工複檢成本,但可能會增加“漏檢”的風險。
那麼對於不同的質檢項而言,如果碰到“二選一”的問題,該如何做出選擇?
負向質檢項:通常“召回率”優先
在貸後資產管理(催收)領域,質檢項以負向為主,例如恐嚇威脅、疑似私收錢款等。負向質檢項通常有兩個特徵,第一是違規量通常都不太大(大部分通話不會違規),第二是漏檢之後的風險相對比較大。因此,針對負向質檢項,我們通常應該通過調整演算法模型的引數或規則程式碼,保證“召回率”優先,將更多涉嫌違規的通話都找出來,然後增加人工成本去做複檢,“寧可錯殺一片,不可放過一個”。
正向質檢項:通常“準確率”優先
正向質檢,是指對業務員符合規範的地方進行加分激勵。最近幾年,正向質檢越來越受到企業重視,因為負向質檢判斷的只是業務員有沒有犯錯,是一種“懲惡”的理念,而正向質檢可以用來激勵業務員變得更加專業、更加規範,是一種“揚善”的理念,更有利於形成正向迴圈。
例如客服領域的規範性用語:“標準開場白”、“標準結束語”、“服務延伸使用者(請問還有什麼可以幫您)”以及“確認客戶預留資訊”等。這類正向質檢項,通常目標通話量比較大,如果錯誤率較高,複檢成本就會很高。面臨二選一的時候,我們通常應該通過調整模型引數或規則程式碼,優先提升準確率,降低人工複檢成本,“寧可漏掉幾個,不可錯殺一片”。
實際場景更復雜
通常,因為負向質檢項的漏檢風險比較高,所以“召回率優先”,降低漏檢風險;而正向質檢項的目標通話量比較大,所以“準確率優先”,降低複檢成本。
此外,在實際應用中,還要將其他因素綜合考慮進去,比如不同質檢項的召回率和準確率提升難度不同,比如不同企業的複檢員數量是不同的……我們才能更好地制定不同質檢項的優化策略。