評估智慧對話機器人的7大資料指標

喜歡打醬油的老鳥發表於2020-09-24

編輯導語:當今人們已經進入到一個大資料時代,人們每天都在生產者各種各樣的資料,這些資料又在不斷被迴圈利用推動著行業和社會的進步。不同行業都有著不同的資料指標體系,本文作者對評估智慧對話機器人的資料指標維度展開了梳理,與大家分享。

如果你正負責一款智慧對話機器人產品,不管是軟體還是硬體,不管叫“小a”還是叫“小b”,總要遇到一個對於產品本身好壞的衡量指標的難題。如果你是leader更要弄清楚到底怎麼給做這款產品的下屬制定OKR及考核指標。

其實,當前多數對話機器人產品都還是一些長遠戰略佈局的產品定位,既不能要求它達成百萬千萬的gmv,也不能要求它實現app那樣的日活月活高留存。理解它的產品定位,理解當前你所在的對話機器人的領域,才能更清楚的去評判自家產品的好壞以及在競品中的排名地位。

智慧對話機器人,或者有些公司會將其命名為“智慧助理”“智慧小助手”,多數是以“工具+閒聊”的組合方式出現的,因此通常支援多個領域的支援多輪對話。而市面上的產品形態也以是否有GUI分為純語音對話互動和多模態對話互動兩種。

而本文討論的目標產品主要聚焦在支援多模態對話互動的“工具+閒聊”的軟硬體產品。當然,單輪指令式機器人或只有VUI的純語音機器人也可以進行部分指標維度的借鑑,在此不做特別指出。

評估智慧對話機器人產品的資料指標維度分為2大部分:產品維度指標、技術維度指標。本文重點聚焦產品維度的7大資料指標,同時給出3個核心技術維度指標供參考。

一、產品維度七大指標

1. 產品使用率

指標目的:分析使用者對於產品的感興趣度(與之相關的指標就是N日留存率,不在贅述)

指標含義:使用了對話機器人產品的使用者數佔使用者總數或者曝光使用者數的比例。

計算公式:使用使用者數 / 總使用者數或曝光使用者數。其中分母根據產品型別有區分:如果是硬體類產品那麼分母則是所售出的硬體總數;如果是軟體類產品,則要分2種情況:1.獨立對話機器人app則分母是每天開啟app的使用者數;2.寄生於主app上的對話機器人則分母是每天機器人入口的曝光使用者數。

統計週期:按日、周、月

2. 最終結果觸達率

指標目的:分析對話流程的流暢度

指標含義:使用了對話機器人產品的使用者在有效會話中有多少比例獲得了最終的結果(比如一段文字答案、一條圖文連結等)

計算公式:最終結果數 / 會話session數

統計週期:按會話session,或按日

3. 結果準確率

指標目的:與上一個指標是關聯指標,用於分析結果的準確程度

指標含義:每次有效會話結束,雖然產品給予了使用者最終結果,但不一定是使用者想要的正確結果。

計算公式:反饋給使用者的正確的結果數 / 反饋結果總數。其中分子的統計口徑有2種,一種是使用者反饋的好評度(如果產品設計有這樣的功能點),一種是人工抽樣。

統計週期:按日

4. 平均對話輪次

指標目的:分析任務型對話機器人的對話流程健康度

指標含義:某一類任務(或技能)的對話輪次的平均數

計算公式:某類任務的對話輪次/某類任務的對話總數

統計週期:按日

5. 跳出率

指標目的:分析對話機器人的產品設計友好度

指標含義:某一類任務(或技能)對話中斷的比例

計算公式:某類任務的對話中斷數 /某類任務的對話總數

統計週期:按會話session,按日

6. 異常率

指標目的:分析對話機器人的異常率找出關鍵問題並快速修復

指標含義:使用者使用對話機器人過程中的異常狀況出現的比例

計算公式:異常報錯數 / 會話session數

統計週期:按時、日

7. 推薦結果點選率

指標目的:分析有GUI的產品推薦內容的精準度

指標含義:在初始化場景或某類特定場景,產品給出推薦內容的使用者接受比例

計算公式:推薦答案或內容的點選(或採納)次數 / 推薦次數

統計週期:按會話session,按日

二、技術維度三大參考指標

1. 意圖識別準確率

指標目的:意圖識別直接影響最終結果是否準確,所以用於分析產品所涉及的領域內使用者意圖識別的準確率

指標含義:正確識別單次會話session使用者意圖識別的準確程度

2. 文字泛化能力

指標目的:好的泛化能力才能更好的支援人類語言表達的複雜性理解,也是nlp的核心指標

指標含義:對指定模組進行抽樣,看是否支援提問文字、槽位等多種表達形式的識別

3. 糾錯/同義/歧義處理能力

指標目的:使用者進行文字/語音輸入時,有概率產生錯誤的、別名類的、或者有歧義的表達,而系統能否根據上下文識別準確的含義或給出多種含義的可能性則直接影響產品的使用者體驗

指標含義:對使用者的對話進行分析,找到三種細分場景的case進行抽樣或模型比對給出相應的正確處理比例

相關文章