谷歌開放全新自然語言資料集:多元化場景更詳細標註,讓 AI 助手更懂人類
雷鋒網 AI 開發者:近日,谷歌宣佈開放兩個新的自然語言對話資料集,分別是 Coached Conversational Preference Elicitation(CCPE)和 Taskmaster-1。這兩個資料集旨在對更接近人類對話的資料進行更詳細的標註,並提供到自然語言處理相關研究者更符合生活實際的資料內容。谷歌釋出了相關內容詳細介紹該開放資料集,雷鋒網 AI 開發者將其整理及編譯如下。
資料集背景
目前,智慧助理能夠完成多類任務並返回多個主題的個性化結果,例如:電影列表、餐廳預訂和旅行計劃等。然而,儘管近年來,我們在這方面取得了巨大進步,但智慧助理依舊未能達到人類理解的水平。
產生這樣的結果,一部分是由於智慧助理缺乏高質量的訓練資料;而這些資料恰好能夠準確地反映人們向智慧助理表達的需求和偏好方式。
正是因為這些系統的侷限性會影響我們表達的「我們希望得到理解」的內容,因此我們常常選擇調整自己的言辭,而反過來去適應智慧助理所能理解的內容。換言之,現在的智慧助理對話理解能力,遠遠沒有達到人類所需的對話複雜程度。
更自然的對話方塊資料集
為了解決這個問題,我們釋出了 Coached Conversational Preference Elicitation(CCPE)和 Taskmaster-1 對話方塊資料集。兩個集合都使用了 Wizard-of-Oz 平臺( ),該平臺能夠將兩個進行口語對話的人匹配,就像那些想要擁有真正有效的智慧助理的人一樣。
對於這兩個資料集,Wizard-of-Oz 平臺內部的設計旨在獨特地模仿現在基於語音的智慧助理,在自動化系統的環境中保留口語對話的特徵。
由於「人類助理」可以準確地理解使用者所要求的內容,因此我們能夠捕捉使用者如何將自己真實地表達給「完美」的智慧助理,以便我們可以繼續改進這樣的系統。
CCPE 資料集
CCPE 全稱為 Coached Conversational Preference Elicitation,它是我們提出的一種在對話中獲得使用者偏好的新方法,即它允許收集自然但結構化的會話偏好。透過研究一個領域的對話,我們對人們如何描述電影偏好進行了簡要的定量分析;並且向社群釋出了 CCPE-M 資料集,該資料集中有超過 500 個電影偏好對話,表達了 10,000 多個偏好。
具體而言,它由 502 個對話方塊組成的資料集,在使用者和助理之間用自然語言討論電影首選項時有 12,000 個帶註釋的發音。它透過兩個付費人群工作者之間的對話收集,其中一個工作人員扮演「助手」的角色,而另一個工作人員扮演「使用者」的角色。「助手」按照 CCPE 方法引出關於電影的「使用者」偏好。
助理提出的問題旨在儘量減少「使用者」用來儘可能多地傳達他或她的偏好的術語中的偏見,並以自然語言獲得這些偏好。每個對話方塊都使用實體提及、關於實體表達的首選項、提供的實體描述以及實體的其他語句進行註釋。
偏好啟發
在面向電影的 CCPE 資料集中,冒充使用者的個人對著麥克風講話,並且音訊直接播放給冒充數字助理的人。「助手」則輸出他們的響應,然後透過文字到語音向使用者播放。
這些雙人自然對話包括在使用合成對話難以複製的雙方之間自發發生的不流暢和錯誤。這建立了一系列關於人們電影偏好的自然且有條理的對話。
在對這個資料集的觀察中,我們發現人們描述他們的偏好的方式非常豐富。該資料集是第一個大規模表徵該豐富度的資料集。我們還發現,偏好也稱為選項的特徵,並不總是與智慧助理的方式相匹配,或者與推薦網站的方式相匹配。換言之,你最喜愛的電影網站或服務上的過濾器,可能與你在尋求個人推薦時描述各種電影時使用的語言並不匹配。
有關 CCPE 資料集的詳細資訊,請參閱我們的研究論文( ),該論文將在 2019 年話語與對話特別興趣小組( )年會上釋出。
Taskmaster-1 資料集
在 Taskmaster-1 的對話方塊資料集中,已經累計了 13215 個基於任務的對話方塊,包含 7708 個書面表達以及 5507 個口語表達資料。該資料集內容覆蓋了六個生活領域,包括:訂購披薩,建立汽車維修預約,設定租車,訂購電影票,訂購咖啡飲料和預訂餐廳。
面向任務的對話方塊
該資料集透過兩個程而建立,每個程式都具有獨特的優勢。第一個涉及兩個人口頭交流的「Wizard-of-Oz」方法,其中受過訓練的智慧體和人互動以完成任務;而第二個是「自我對話」,其中由單人書面技術增加語料庫大小和說話者多樣性,包含了大約 7700 寫入「自我對話」條目和約 5500 個雙人口語對話。
對於書面對話,我們讓人們根據每個任務概述的場景自己建立完整的對話,從而扮演使用者和助手的角色。因此,雖然口語對話更接近地反映了會話語言,但書面對話既適當豐富又複雜,但更便宜且更容易收集。
我們不會將工作者限制在詳細的指令碼或小型知識庫中,因此我們觀察到與現有資料集相比,這一資料集包含更真實和多樣化的對話。
我們還提供了幾種基線模型,包括具有基準效能的最先進神經機器翻譯架構以及定性人體評估。對話方塊標有 API 呼叫和引數,這是一種簡單且經濟有效的方法,可避免複雜註釋模式的要求。對話模型和服務提供者 API 之間的抽象層允許給定模型與提供類似功能的多個服務互動。
與傳統的,詳細的策略相比,我們只關注每種型別的會話的 API 引數,而不僅僅是執行事務所需的變數。例如,在關於安排乘坐共享的對話方塊中,我們將「到」和「從」位置標記為汽車型別(經濟、豪華、帶游泳池等)。對於電影票,我們標記電影名稱、劇院、時間、票數,有時還有螢幕型別(例如 3D 或標準)。語料庫版本中都包含了完整的標籤列表。
Taskmaster-1 資料集( )相關內容,在 2019 年自然語言處理經驗方法會議( )上出現的研究論文中進行了詳細描述。
我們希望這些資料集對於研究界在對話系統和會話推薦中的實驗和分析都是有用的。
文章連結
CCPE 資料集下載相關:
Taskmaster-1 資料集下載相關:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2656553/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 專訪谷歌NLP技術專家:我們負責讓谷歌更懂人類語言谷歌
- NLA自然語言分析,讓資料分析更智慧!
- 《自然》證實:計算機語言更類似人類語言計算機
- 讓介面動畫更自然動畫
- 人工智慧訓練師:用資料“餵養”AI,教它們“更懂”人類人工智慧AI
- 助力AI技術場景化落地 | 資料標註AI
- AliSSR 語音超分演算法:讓線上會議語音更明亮更自然演算法
- 讓json更懂中文JSON
- Python自然語言處理 5 分類和標註詞彙Python自然語言處理
- AI讀雲,更懂深圳AI
- 袋鼠雲數棧UI5.0煥新升級,全新設計語言DT Design,更懂視覺更懂你!UI視覺
- 中文自然語言處理工具hanlp隱馬角色標註詳解自然語言處理HanLP
- 史上最強GAN被谷歌超越!標註資料少用90%,造假效果卻更逼真谷歌
- Google聯盟天涯 李開復表示谷歌更懂中文Go谷歌
- 自然語言處理之序列標註問題自然語言處理
- 如何公平分配?AI比人更懂AI
- 自然語言處理技術詳細概覽自然語言處理
- 埠碰撞技術讓開放埠更安全(轉)
- 使用doccano標註NER資料詳細教程
- 影片場景下的自然語言處理應用自然語言處理
- AI虛擬人千億級市場來襲,提供全方面資料採集標註服務AI
- llm構建資料標註助手
- Hiptype:讓出版商更懂讀者的大資料分析工具大資料
- 讓資料傳輸更安全
- Serverless + AI 讓應用開發更簡單ServerAI
- AI助手:Agent工作流程與應用場景詳解AI
- 視訊場景下的自然語言處理應用自然語言處理
- vscode語音註釋, 讓資訊更豐富(下)VSCode
- vscode語音註釋, 讓資訊更豐富 (上)VSCode
- vscode語音註釋, 讓資訊更豐富(中)VSCode
- 如何提高資料標註質量,提供精細化標註資料集?丨曼孚科技
- 機器學習中的有標註資料集和無標註資料集機器學習
- TGDC | 讓現實更理想·室外3D大場景重建3D
- 語音標註的具體應用場景
- 高效採集資料業務更安心
- 裸金屬伺服器備份功能讓資料更安全,適用哪些業務場景呢伺服器
- 視覺語言兩開花!谷歌提出全新視覺語言橋樑視覺谷歌
- DataGPT:一個用自然語言來分析資料的AI AgentGPTAI