隨著人工智慧的普及，AI已經滲透到各行各業，本文就為大家介紹了利用最前沿的AI技術實現電話機器人的原理。智慧電話機器人就是充分的利用了人工智慧語音識別技術和大資料的精準分析定位，完全是對傳統模式是一次顛覆性的變化，是智慧化的還是時代化的“人工+智慧語音”的一種方式，智慧電話機器人是企業的福音!幫企業降低成本，提高工作效率，提升公司業績!

電話機器人比人工坐席厲害的是，電話號碼直接在後臺一鍵匯入，省時又省力，自動撥打。智慧輪流對話，根據系統設定可以對客戶進行篩選統計，依據客戶的回答智慧分類意向程度，把意向最高的甲類客戶交給人工進行著重跟進，這樣就能使整個電銷過程的工作效率大大提高。

作為“人工智慧”的產物，正在逐漸的給電銷行業帶來大改變大革命，把繁瑣、枯燥、耗時的工作交給智慧電話機器人完成，後臺分類管理，加以精英銷售跟進，不僅大大提高工作效率，而且能更好的把人力資源進行再分配再分組，減少企業運營成本!應該是每位老闆都在想的問題。

對於電銷公司來講如何精準地識別真實客戶一直是很難攻克的難點所在。對於智慧電話機器人來說，可以透過真人語音式專家級的溝通，模擬電銷人員和客戶進行多輪互動的有效溝通，透過使用者畫像和大資料模型精準找到使用者，實現精準營銷，並快速完成ABCD類意向客戶的篩選和分類。

智慧電話機器人是將網路電話、語音知識、自然語音理解、多輪對話、知識圖譜等多個門類的前沿技術整合在一個智慧產品中，已經成為行業的領頭羊，為外呼行業帶來了可喜的變化，短短几個月被很多企業證明，這是真正實現開源節流的AI好專案了。

智慧電話機器人作為當今的一款智慧化產品，在實際應用中能準確的以人類的聲音、思維和語氣智慧應對客戶提出的各種問題。同時，它的篩選能力也極強，可以把應答使用者按意向程度自動分類，幫助人工坐席快速剝離意向客戶。

員工坐席每天撥打200個-300個電話已經算是極限了，但是智慧電話機器人每天可以撥打800-1200通有效電話，讓效率提高几倍，提高效率就意味著業績的提高。

什麼是電話機器人

透過ASR(語音識別)和TTS(文字轉語音)模擬真人和使用者的通話，可用於企業總機，自動催繳，外呼營銷，問卷調查等業務，同時支援百度，科大，阿里雲等ASR系統，可以真人預先錄音，使用者是完全察覺不到是機器人。

如何開發一個電話機器人

FreeSWITCH/Asterisk是一個軟交換系統,可以利用開源的軟交換系統，開發一個VAD錄音模組，使用者說話後開始錄音，停止說話後，把錄音提交到語音識別介面轉換成文字，利用語義解析介面(NPL)或者簡單的關鍵字匹配，返回系統預先設計的話術，透過TTS轉換成聲音(也可以真人預先錄音)播放給使用者聽。實現人機語音對話。

技術難點

·機器人說話時，使用者開始說話，機器人要及時處理，就是所謂的打斷，這個透過VAD演算法和關鍵詞打斷可以解決。

·機器人怎麼理解使用者說話含義，這個是目前難點，目前主要的做法，還是透過關鍵詞匹配來設計話術。

支援那些ASR介面

可以支援科大訊飛，百度語音識別，阿里雲語音識別，騰訊語音識別，捷通華聲靈雲等SDK/API/MRCP介面。

怎麼使用

可以和現有的呼叫中心，IPPBX，FreeSWITCH，Asterisk 等系統透過SIP分機和SIP中繼方式對接。

smart ivr 介面說明

smartivr 是一個基於Freeswitch的電話機器人二次開發介面(restful)，支援和Asterisk對接

使用指南

使用者自己實現 httpAPI,機器人程式去呼叫這個介面，不是機器人提供httpapi給使用者呼叫。

1.

外呼程式呼叫電話接通後，或者客戶主動呼入接通後機器人程式向 webserver post 傳送

2.

smartivr –> web

3.

"calleeid": "8888abc", //被叫號碼

"callerid": "abc", //主叫號碼

"callid": "1fe74812-e376-4319-b335-3de1b494325c", //每個通話的唯一ID

"errorcode": 0, //錯誤程式碼

"flowdata": null, //流程資料

"flowid": "abc", //流程ID

"notify": "enter" //通知型別

4.

webserver根據業務邏輯返回 json資料比如下面的命令就是啟動後臺ASR，並且播放一個聲音

5.

smartivr <– web

6.

"action": "start_asr", //第一個動作 start_asr是一個非同步函式，只需要執行一次，啟動後會一直進行VAD和ASR，直到呼叫sotp_asr

"flowdata": "流程選擇", //流程資料，類似瀏覽器的Cookie,機器人後續httpapi請求會把這個資料傳送回來。

"params": {

"min_speak_ms": 100, //最小說話時間，預設值100，單位毫秒，說話時間小於這個值，會被認為是無效聲音。

"max_speak_ms": 10000, //最大說話時間，預設值10000，單位毫秒，說話時間超過這個值，就停止錄音，直接提交ASR伺服器識別。

"min_pause_ms": 300, //最小停頓時間，預設值300，單位毫秒，預設值使用者停頓時間超過這個值，會提交到ASR識別。識別完成後傳送asrprogress事件。完成後的意思是 ASR伺服器可能 300-800ms才返回識別介面。

"max_pause_ms": 600, //最大停頓時間，預設值600，單位毫秒，使用者停頓時間超過這個值，認為一句話說完，所有識別完成後傳送asrmessage事件。所有識別完成後的意思是，所有提交到asr伺服器的識別結果都返回了。注意 min_pause_ms 必須大於min_pause_ms。

"pause_play_ms": 200, //觸發暫停放音時間，預設值0：就是禁用自動暫停，單位毫秒，建議設定200-1000，使用者說話時間超過這個值，就暫停放音。有時候使用者一直持續說話，中間沒停頓，所以還沒提交到ASR伺服器識別，不能使用關鍵詞打斷，可以先暫停放音。

"threshold": 0, //VAD閾值，預設0，建議不要設定，如果一定要設定，建議 2000以下的值。

"recordpath": "", //錄音檔案路徑，如果不設定：就會使用配置檔案中的路徑，每天生成一個資料夾,如果設定了，就會使用這個引數中的目錄，檔案格式是 recordpath/被叫號碼_Unique-ID_序號.wav

"volume": 50 //音量標準化的值。0-100，0不使用音量標準化，其他值音量把錄音音量調整到這個值後，再提交ASR識別。

},

"after_action": "playback",

"after_ignore_error": false, //如果action動作(start_asr)執行失敗是否繼續執行after_action(playback)。

"after_params": {

"prompt": "您好，歡迎致電，這裡是電話機器人演示系統，請說要進入的測試流程，比如，房產!", //可以直接播放聲音檔案。規則就是如果最後4個字是.wav,就直接播放wav檔案。

"wait": 5000, //單位毫秒，放音結束後等待時間。用於等待使用者說話。

"retry": 0 //重播次數。就是wait時間內使用者不說話，就重新播放聲音。

機器人程式執行 “action”:”start_asr” 開始後臺ASR識別,然後執行”after_action”: “playback”開始播放聲音檔案。

7.

·當使用者說話後，機器人傳送識別進度，也就是使用者暫停說話時間超過 min_pause_ms

smartivr –> web

"asrelapse": 391, //asr識別伺服器消耗的時間，單位毫秒。

"asrtextall": "1.識別結果;", //包含之前停頓的識別結果的組合。格式是錄音序號.識別結果;這樣組合多個識別結果。

"asrtype": "aiui", //本次使用那個asr識別

"calleeid": "8888abc",

"callerid": "abc",

"callid": "1aec14af-d6a8-49e4-96fc-fb5f7cfdb893",

"errorcode": 0, //asr返回錯誤，0無錯誤。

"flowdata": "流程選擇",

"flowid": "abc",

"message": "識別結果",

"notify": "asrprogress_notify",

"recordindex": "1", //錄音序號

"recordfile": "", //錄音檔案

"recordms": 931, //錄音時間，單位毫秒。

"volumegain": 5.95330699999 //音量標準化放大或者縮小的倍數。

webserver根據業務邏輯返回是否需要暫停放音

smartivr <– web

"action": "console_playback",

"flowdata": "流程選擇",

"params": {

"command": "pause"

當使用者說完一整句話，機器人傳送完整的識別結果，也就是使用者暫停說話時間超過 max_pause_ms

smartivr –> web

"calleeid": "8888abc",

"callerid": "abc",

"callid": "ea6d1235-aaab-4251-b03b-3b53ca32e00d",

"errorcode": 0,

"flowdata": "流程選擇",

"flowid": "abc",

"message": "1.你好;2.什麼事;",

"notify": "asrmessage_notify",

"speakms": "1162" //整句話的說話時間，包含暫停時間

webserver根據業務流程，執行話說邏輯，播放聲音。

smartivr <– web

"action": "playback",

"flowdata": "回答",

"params": {

"prompt": "先生你好，請問你最近需要買房嗎",

"wait": 3000,

"retry": 2

·當使用者一直不說話，聲音播放完成並且等待時間超過，機器人傳送 playback_result

smartivr –> web

"calleeid": "8888abc",

"callerid": "abc",

"callid": "35bca774-5b3e-4129-a5e7-1c3c86605071",

"errorcode": 0,

"flowdata": "",

"flowid": "abc",

"message": "FILE PLAYED",

"notify": "playback_result"

webserver根據業務流程傳送繼續放音,提示使用者回答問題。

smartivr <– web

"action": "playback",

"flowdata": "提示選擇流程",

"params": {

"prompt": "請問你要進入哪個測試流程，比如，房產",

"wait": 3000,

"retry": 2

playback_result 什麼時候有這個通知

執行 playback後，播放完成並且等待超時，就會傳送playback_result 通知。

·如果識別到使用者說話，在 asrmessage_notify 事件中返回命令playback，播放了一個新的聲音，那麼上個playback會給強制終止(上次的playback_result就不會傳送了。)，新的播放完成時，才會傳送playback_result。

·如果識別到使用者說話，在 asrmessage_notify 事件中返回命令noop,或者console_playback(resume)，沒去播放新的聲音，那麼還會傳送playback_result 通知的。

·。

介面說明

注意：請求和返回都採用JSON格式，編碼為utf8,所有引數區分大小寫,數字和字串型別注意區分，引數未說明數字型別就是字串型別。

自動放音暫停(打斷)

start_asr 有一個引數 pause_play_ms，demo是200，就是檢測到聲音持續時間時間超過pause_play_ms，就自動暫停放音。如果你不需要這個功能設定為0，如果你啟用了這個功能，asrmessage_notify通知你沒播放一個新的聲音就必須要恢復放音console_playback(resume)。否則會一直暫停。

怎麼實現關鍵詞打斷

·asrprogress_notify 的識別結果如果是關鍵詞返回 console_playback(pause)，如果不是關鍵詞返回 console_playback(resume)

·asrmessage_notify 的整句話識別結果如果匹配，直接播放新的聲音檔案，執行新的業務流程，如果不匹配，返回console_playback(resume)。

playback_result 收到這個通知，說明聲音播放完成，等待使用者說話超時，必須播放一個聲音，提示使用者說話

action 描述

start_asr

start_asr 是一個非同步函式，只需要執行一次，啟動後會一直進行VAD和ASR，直到呼叫sotp_asr

·min_speak_ms 最小說話時間，預設值100，單位毫秒，說話時間小於這個值，會被認為是無效聲音。

·max_speak_ms 最大說話時間，預設值10000，單位毫秒，說話時間超過這個值，就停止錄音，直接提交ASR伺服器識別。

·min_pause_ms 最小停頓時間，預設值300，單位毫秒，預設值使用者停頓時間超過這個值，會提交到ASR識別。識別完成後傳送asrprogress事件。完成後的意思是 ASR伺服器可能 300-800ms才返回識別介面。

·max_pause_ms 最大停頓時間，預設值600，單位毫秒，使用者停頓時間超過這個值，認為一句話說完，所有識別完成後傳送asrmessage事件。所有識別完成後的意思是，所有提交到asr伺服器的識別結果都返回了。注意 min_pause_ms 必須大於min_pause_ms。

·pause_play_ms 觸發暫停放音時間，預設值0，就是禁用自動暫停，單位毫秒，建議設定200-1000，使用者說話時間超過這個值，就暫停放音。有時候使用者一直持續說話，中間沒停頓，所以還沒提交到ASR伺服器識別，不能使用關鍵詞打斷，可以先暫停放音。

·threshold VAD閾值，預設0，建議不要設定，如果一定要設定，建議 2000以下的值。

·recordpath 錄音檔案路徑，如果不設定(使用配置檔案設定錄音目錄(smartivr.json)，)，如果設定了會儲存錄音檔案到這個目錄，檔案格式是 recordpath/被叫號碼Unique-ID序號.wav

·volume 音量標準化的值。0-100，0不使用音量標準化，其他值音量把錄音音量調整到這個值後，再提交ASR識別。

start_asr使用的配置檔案

linux /etc/smartivr.json,windows freeswitchconsole.exe同一個目錄

"asr": {

"aiui": {

"key1": {

"appid": "5a519267",

"appkey": "e212fc8e4c9747a39fa1c56940e705be"

},

"key2": {

"appid": "5a519267",

"appkey": "e212fc8e4c9747a39fa1c56940e705be"

·}

* aiui 是科大訊飛webapi介面的KEY，可以配置多個。

* record.path 是錄音路徑。

playback

播放一個聲音檔案

·prompt 聲音內容wav檔案(只支援8000hz,16位，單聲道)或者文字。prompt 提示文字(如果最後4個字是.wav，就是錄音檔案放音，否則會呼叫TTS生成聲音檔案)。同樣的文字TTS只轉換一次，後續會使用快取的檔案

·wait 單位毫秒，放音結束後等待時間。用於等待使用者說話。

·retry 重播次數。就是wait時間內使用者不說話，就重新播放聲音。

多檔案或者TTS和錄音檔案混合放音

prompt 使用數值方式就可以，比如

"/var/wav/1.wav",

"tts文字轉聲音",

"/var/var/2.wav"

sotp_asr

停止後臺ASR。

console_playback

用於播放控制，使用者說話開始，先暫停播放，如果說的是無效聲音，可以恢復播放。

·command

·pause 暫停播放

·resume 恢復播放

·stop 停止播放

bridge 轉接電話

{"action":"bridge","flowdata":"","params":{"number":"sofia\/external\/a8008@sip.ddrj.com:16080","callerid":"","gateway":"","prompt":"\u6b63\u5728\u8f6c\u63a5\u4e2d\uff0c\u8bf7\u7b49\u5f85","background":"wating.wav"}}

* number 被叫號碼，如果gateway沒設定，必須是完整呼叫串類似:sofia/external/電話號碼@閘道器Ip

* callerid 可選引數主叫號碼(對方看到的來電顯示)

* gateway 可選引數閘道器名字

* background 可選引數背景音樂

* prompt 可選引數提示文字prompt 提示文字(如果最後4個字是.wav，就是錄音檔案放音，否則會呼叫TTS生成聲音檔案)。

hangup 掛機

{"action":"hangup","params":{"usermsg":"not found notify"}}

* cause [數字] 可選引數結束通話原因根據sip信令設定詳細看

* usermsg 可選引數裡面可以放置除錯資訊，smartivr會列印到日誌檔案。

noop 不需要執行任何動作時可以返回這個，比如(leave,asr_progress 通知可以返回noop)

{"action":"noop","params":{"usermsg":""}}

* usermsg 可選引數裡面可以放置除錯資訊，smartivr會列印到日誌檔案。

deflect 執行後會直接離開流程，收到 leave 通知

{"action":"deflect","flowdata":"","params":{"number":"1001"}}

* number 要轉移的目的地(由呼叫方處理) 即： SIP REFER 的 URI。

getdtmf 接收使用者按鍵

{"action":"getdtmf","flowdata":"","params":{"prompt":"","invalid_prompt":"","min":0,"max":128,"tries":1,"timeout":5000,"digit_timeout":3000,"terminators":"#"}}

* min [數字] 最少按鍵個數(minimum value of 0)

* max [數字] 最多按鍵個數(maximum value of 128)

* tries [數字] 提示音播放次數

* timeout [數字] 等待按鍵最大時間，聲音播放結束開始算起。

* terminators 結束輸入按鍵，預設是#。

* prompt 提示音

* invalid_prompt 輸入錯誤提示音

* regexp 輸入按鍵規則(正規表示式)

* digit_timeout [數字] 按鍵超時時間，如果超時沒有新按鍵，就認為輸入完成。

說這些讓行業內人研究學習，智慧機器人是未來的趨勢，對電銷行業實用價值更強的人工智慧電話機器人。比如完全模擬真人語音，嗓音甜美，對這代表著企業的品牌;比如話術專業、自動記錄、自動分類意向客戶等等，這些則直接決定著整個企業的成交率;比如工作效率更高、資料更準確等效能上更優質的人工智慧電話機器人，這些也直接影響著企業的電銷轉化率。

第二，選擇價效比更高的人工智慧電話機器人，除了效能，企業仍需考慮成本，如果人工智慧電話機器人的同等價值還不如人工電銷人員，哪個企業又會選擇的。同樣的，企業在選擇人工智慧電話機器人的時候，需要做一個簡單的衡量，哪些品牌的人工智慧電話機器人的功能已經足夠你使用，而哪些看起來很優質但卻有很多不那麼實際的功能、且費用更高的人工智慧電話機器人值不值得你購買。

AI智慧電話機器人原始碼搭建揭秘！

相關文章