釦子OpenAPI突進智慧語音戰場!點滿低延時、定製化、隨時打斷和音色克隆技能(內測開啟!)

机器之心發表於2024-11-21

釦子 Coze OpenAPI 不僅具備低延時、定製化、隨時打斷和音色克隆等優勢,還整合了釦子強大的智慧體生態。


基於 AI 的無限遊戲最近開始贏得關注,但實際上你現在就可以在自己的電腦上實現類似跑團的無限遊戲。有意思的是,就算你大開腦洞,胡亂遊戲,大模型 AI 也能幫你把故事圓起來,讓這個遊戲無限地繼續下去。
釦子OpenAPI突進智慧語音戰場!點滿低延時、定製化、隨時打斷和音色克隆技能(內測開啟!)
你甚至可以召喚郭德綱來戰鬥

這個 AI 遊戲主持人的聲音是不是很有代入感?這其實是使用釦子正在內測的智慧語音對話 OpenAPI 實現的。當然,無限遊戲並非釦子智慧語音對話 OpenAPI 所能實現的唯一功能。釦子智慧體商店中那些智慧體會的技能它都行,比如查詢天氣或新聞、口語練習、角色扮演、建立播客等等。

舉個例子,我們這裡就生成了一個播客,使用的素材是我們前些天釋出的文章《LeCun 贊轉!類 Sora 模型能否理解物理規律?位元組豆包大模型團隊系統性研究揭秘》。
釦子OpenAPI突進智慧語音戰場!點滿低延時、定製化、隨時打斷和音色克隆技能(內測開啟!)
更重要的是,透過智慧語音對話 OpenAPI。你還能將智慧實時對話能力引入你自己的應用!

不管是微信小程式還是自己的應用或遊戲,又或者就只是你自己的裝置終端,釦子的 AI 智慧體都能透過新上線的智慧語音對話 OpenAPI 入駐進來。

簡單想象一下,我們就能發現釦子智慧語音對話 OpenAPI 的無窮妙用。比如我們可以將自家的產品資訊配置到釦子智慧體的知識庫中,然後透過釦子智慧語音對話 OpenAPI 為我們的網站和應用引入一個智慧客服,它能以實時通話的方式為使用者解答一些常見問題。釦子OpenAPI突進智慧語音戰場!點滿低延時、定製化、隨時打斷和音色克隆技能(內測開啟!)
用自然語言搭建一個技術問答應用

要展現一個工具的強大,光是結果好還不夠,還得用起來方便,下面我們就逐步演示一下可以如何使用釦子智慧體平臺和智慧語音對話 OpenAPI 輕鬆構建一個 AI 技術問答應用(基於釦子提供的網頁版 Playground)。有趣的是,這裡的整個演示過程都是零程式碼的!

首先,你需要一個釦子專業版賬戶。由於目前釦子智慧語音對話 OpenAPI 正處於內測階段,因此你還需要申請內測許可權,你可以在這裡免費申請:
https://www.coze.cn/survey/7431180581536268314?FG_source=17

接下來,你需要構建一個智慧體。基於釦子智慧體平臺,你只需要用一句話描述你的核心功能,剩下的交給 AI,就能輕鬆獲得一個智慧體。
圖片
當然,你也可以對 AI 建立的智慧體進行更進一步的編排,最佳化其人設和回覆邏輯,還能新增知識庫以及設定開場白;更重要的是,還能為其設計工作流 —— 這個過程既能使用思維鏈(CoT)和檢索增強式生成(RAG)等技術,還能將外部工具整合進來,比如整合外部知識庫、呼叫外部模型和工具等等。

考慮到最近 Scaling Laws 是否撞牆的問題備受熱議,我們也正好做過幾篇報導,下面我們就把這幾篇文章匯入到這個智慧體的知識庫中。
圖片
智慧體編排完成後,點選發布。這裡注意我們需要勾選「Agent as API」以便後續我們透過 OpenAPI 呼叫該智慧體。

然後我們就可以進入 Playground,獲取許可權後,呼叫該智慧體,同時選取合適的音色。
圖片
之後,我們就可以透過釦子智慧語音對話 OpenAPI 來了解所謂的「擴充套件律撞牆」是什麼了。(我們這裡順便演示了其支援隨時打斷的功能,這對真實應用來說具有非常實際的價值。)釦子OpenAPI突進智慧語音戰場!點滿低延時、定製化、隨時打斷和音色克隆技能(內測開啟!)
不僅如此,釦子智慧語音對話 OpenAPI 也支援使用者傳入文字或網路連結(只要對應的智慧體配置了連結讀取等合適的外掛即可)。當然,由於這裡演示的僅僅是 Playground,還不是完整的應用,因此在傳入資料時還需要採用 json 格式,下面演示了其對我們最近釋出的一篇文章的分析:
釦子OpenAPI突進智慧語音戰場!點滿低延時、定製化、隨時打斷和音色克隆技能(內測開啟!)
如此,一個簡易版的實時語音技術問答助理就搭建完成了。實際上,只要搭配上好看的網頁前端,這就可以作為一個小應用釋出了。而透過配置具有更復雜工作流程的智慧體,釦子智慧語音對話 OpenAPI 也能實現更加複雜的應用。

五大優勢,以智慧賦能人機互動

宏觀來看,語音互動技術可以簡化成四個步驟:語音識別(ASR)、語義理解(NLU)、對話管理和任務處理、語音合成(TTS)。

在相關技術發展早期,每個步驟的處理都很機械和呆板,使用者和應用都只能按照預設的指令進行互動。在最早期的時候,機器甚至沒法識別人類的語音指令,而是需要人類使用者透過數字按鍵來給出反饋,比如「業務辦理請按 1,業務查詢請按 2,人工服務請按 * 號鍵」。事實上,現在許多客服系統依然還在使用這種老舊正規化。
圖片
之後隨著語音識別和早期自然語音處理(NLP)技術的發展,人類開始可以透過語音方式與計算機互動。不過那時候不管是 ASR 還是 NLP 或是 TTS,都僅支援單一語種,也很難應對稍微複雜的互動場景。早期的 Siri 和 Google Assistant 等很多早期的語音助手便是採用了這一正規化。
圖片
之後,大模型時代到來了。AI 理解人類語言的能力實現了質的飛躍,但兩側語音端的處理依然有待改進。一方面是 ASR 還很難應對多語言混合輸入的場景,另一方面 TTS 也無法準確實現多語言輸出。使用者得到的語音反饋更像是毫無特色和情感的「棒讀」。
圖片
到了今年,智慧語音互動進入了變革之年,代表性事件便是今年 5 月份 OpenAI 釋出了具備實時語音對話功能的大模型 GPT-4o。而釦子則在這個基礎上更進了一步,不僅實現了實時、智慧、自然的多語言語音互動,還將智慧體整合進了其工作流程中,從而可以完成更加豐富多樣的任務。這讓其在這場正在持續的「智慧語音大亂鬥」中佔據了一個領先位置。
圖片
總結起來,釦子智慧語音對話 OpenAPI 具有 5 大顯著優勢。

優勢 1:強大的 AI 智慧體能力

智慧體很可能是 LLM 實現大規模實際應用的又一正規化。它能讓 LLM 超脫僅僅作為問答機器人的水平,更深度地參與到使用者的數字或物理生活中。正如著名 AI 研究者吳恩達說的那樣:「大多數 LLM 的最佳化方向都是回答問題,這主要是為了提供良好的消費者體驗,而且我們已經能夠將它們『嫁接』到複雜的智慧體工作流程中,從而構建有價值的應用。現在的趨勢是以原生方式為智慧體構建用於特定操作的 LLM,這能極大提升智慧體的效能。我相信未來幾年這個方向的智慧體將獲得巨大提升。」

釦子智慧體平臺正是這一願景的實踐者,而釦子那強大的智慧體生態便是釦子智慧語音對話 OpenAPI 最重大的優勢之一。

釦子是新一代 AI 大模型智慧體開發平臺,其整合了外掛、長短期記憶、工作流、卡片等豐富能力,可幫助使用者快速搭建個性化或具備商業價值的智慧體,併發布到豆包、飛書等平臺,並且其使用門檻非常低,並不需要使用者具備程式設計能力 —— 使用者只需簡短几句描述需求的自然語言,該平臺就能用 AI 幫你自動構建合適的智慧體。
圖片
使用釦子商店右下角釦子助手,一句話建立智慧體

自今年 2 月份國內版上線以來,釦子智慧體開發平臺已經成長為國內智慧體平臺的重要引領者,其上已經部署了大量來自官方和社群的智慧體,其中不少已經收穫了數十萬使用者。
圖片
透過整合智慧體,釦子智慧語音對話 OpenAPI 可讓使用者以語音方式完成各種不同的任務,比如執行訂單、生成影像、執行重複性的工作流程等等。只要智慧體能做到的,釦子智慧語音對話 OpenAPI 都能將其整合進來。

優勢 2:識別精準

釦子智慧語音對話 OpenAPI 在語音識別(ASR)方面使用了先進的大模型技術,具備上下文理解和超強的抗干擾能力,從而能帶來更為精準的語音轉文字體驗。

它不僅能識別常見對話內容,還能在多輪對話中進行上下文關聯 —— 當使用者提到前文中的名詞或代稱時,系統會根據對話背景自動關聯,避免重複確認。此外,釦子智慧語音對話在面對嘈雜環境或複雜聲學背景時表現出色,能夠識別出清晰的文字,減少因噪聲導致的誤識別問題。

針對垂直領域,OpenAPI 提供了專門的語料支援,不論是醫療、金融還是法律領域,系統均能精準識別專業術語。此外,它對中英混合表達的語音識別也有良好的支援,提升了應用在多語種環境中的適應性。

優勢 3:穩健的實時通訊能力

實時通訊是智慧語音對話體驗的核心要素之一,尤其是在對話連續性和即時性要求高的應用場景中,低延遲可以極大地提升使用者體驗。

釦子智慧語音對話 OpenAPI 在這方面的解決方案是火山引擎的 RTC(Real-Time Communication)技術。該技術已經在實踐中得到了驗證,可顯著降低通訊鏈路中的延遲,使得系統響應更加即時,不再有卡頓和延時問題。而這些年的研究進步已經讓火山引擎 RTC 實現了超低時延影片傳輸和雲端音訊流式處理,並對 AI 語音能力的全鏈路進行了最佳化(RTC-ASR-LLM-TTS),能實現智慧體的實時響應。

據瞭解,火山引擎 RTC 已經大幅降低了從聲音採集到 AI 回覆語音響應這個全鏈路流程的時延,最低可至 1 秒。相較之下,之前的工作流程往往需要好幾秒的處理時間。釦子OpenAPI突進智慧語音戰場!點滿低延時、定製化、隨時打斷和音色克隆技能(內測開啟!)
火山引擎 RTC 與兒歌點點合作的 「AI 夥伴」演示,展示了其實時效能以及支援打斷的能力

這樣的低延遲能力使釦子智慧語音對話 OpenAPI 在客服、教育、遠端協作等場景下具備明顯優勢,不僅可以快速響應使用者的語音輸入,還能在多輪對話中保持穩定順暢的互動。

此外,火山引擎 RTC 還具備優秀的抗弱網能力,在弱網環境下也能保持通話順暢,避免因丟字引起智慧體理解和回答偏差。

RTC 還讓智慧體可被實時「打斷」了。也就是說,智慧體可根據人類對話的節奏和停頓來隨時響應。它可以立馬中斷當前的輸出,也能即時根據使用者指令給出反饋。相較之前還需手動點選「打斷」按鈕的做法,這種做法顯然更加自然,就像是與真人交流一樣。

這項能力在實際應用中具有極其重要的價值。比如當使用者在對話過程中突然提出新的問題或修改需求時,系統能夠迅速捕捉並響應打斷指令,靈活調整對話流程,無需等待當前話語結束。在客服、線上諮詢和智慧助理等場景中,這一能力可顯著提升互動的自然度和應變性,使得對話更貼合真實人類溝通習慣,進一步提升使用者體驗。

優勢 4:語言效果自然

在文字轉語音(TTS)方面,釦子智慧語音對話 OpenAPI 使用了大模型技術,從而讓生成的語音更加自然、情感豐富,具有高保真的個性化特點。

基於大模型的 TTS 引擎能夠智慧分析文字內容,針對語句的情緒、意圖和語氣進行調節,使輸出的語音在語調、節奏和情感表達上更貼近真人。

另外,釦子智慧語音對話 OpenAPI 還支援中英文混合語句,能夠實現流暢切換,在多語種表達場景中更顯真實可靠。無論是客服系統需要溫和耐心的語氣,還是播報系統需要富有激情的表達,釦子智慧語音對話 OpenAPI 都能自動適應,避免了傳統 TTS 語音機械、單調的問題。

此外,生成的語音在韻律、氣口和情感表達等方面也有細緻最佳化,讓使用者聽到的語音不僅真實可信,更富有感染力,適用於從廣告配音到客戶服務等廣泛的應用場景。

優勢 5:支援自定義音色

釦子智慧語音對話 OpenAPI 不僅預置了豐富的音色(包括 20 多種中文音色以及一些英語、日語和西班牙語等其它語言的音色),還提供了一項特別的音色克隆功能,使用者只需提供一小段語音錄製,便可生成自己的專屬音色。釦子OpenAPI突進智慧語音戰場!點滿低延時、定製化、隨時打斷和音色克隆技能(內測開啟!)
釦子智慧語音對話 OpenAPI 的多音色示例,包括一個定製音色

這一功能可讓企業和個人使用者將音色品牌化,為語音服務增加更多的個性和辨識度。在市場推廣、品牌營銷或個性化服務中,使用者可以透過特有的音色與品牌形象建立聯絡,使使用者的聲音成為獨特的品牌標識。

目前,系統在內測期間允許每位使用者建立一個專屬音色。未來,這一音色自定義功能將進一步擴充,或允許多音色的並行生成和使用,滿足更多元化的聲音需求。

內測邀請中

釦子智慧語音對話 OpenAPI 現已向釦子專業版使用者開放邀測申請!

作為一款強大的智慧體對話工具,釦子智慧語音對話 OpenAPI 擁有極其廣泛的應用潛力 —— 無論是線上客服、遠端教育、智慧助理,還是在金融、醫療等專業領域,都能幫助企業快速實現智慧化的實時語音互動。

未來,隨著大模型及智慧體能力的提升,釦子智慧語音對話 OpenAPI 也能為開發者的應用帶去更強大的智慧能力,像無限遊戲一樣開啟無限可能。或許某一天,釦子智慧語音對話 OpenAPI 可以成為入口,造就鋼鐵俠的 Jarvis 那樣的超級 AI 助理。
圖片
釦子智慧語音對話 OpenAPI 支援多平臺接入,團隊也會提供用於不同場景和平臺的 SDK。

釦子團隊表示,邀測期間暫不收取語音功能費用,僅根據智慧體呼叫次數和 Token 消耗收取專業版的基礎費用。而內測使用者的福利是每日 1 小時、每月 20 小時的實時通話體驗時長,足以滿足基礎測試和常規使用。如有更高時長需求,使用者可根據實際情況提出額外申請,以滿足不同場景的深度測試需要。

在希臘神話中,普羅米修斯透過盜取火種賦予了人類智慧和文明的火花。同樣,釦子智慧語音對話 OpenAPI 就恰如應用領域的普羅米修斯,能為各行各業的應用賦予實時智慧語音能力,開啟技術實踐的新篇章。

如果您想參與內測體驗,關注「釦子Coze」公眾號回覆「語音」即可申請內測。期待大家的體驗反饋!釦子OpenAPI突進智慧語音戰場!點滿低延時、定製化、隨時打斷和音色克隆技能(內測開啟!)

相關文章