自然語音處理(NLP)系列(五)——詳解智慧問答系統

景聯文科技發表於2023-02-01

為方便客戶進行網上登記,提升各大官網系統的智慧化水平,很多官網已上線“智慧小客服”。“智慧小客服”支援語音引導、機器人24小時智慧問答、文字提問、上傳圖片諮詢、關聯問題推薦、遠端人工客服等多種便利化的貼心諮詢服務。這些服務中運用到了自然語言處理(NLP)中的智慧問答系統。

自然語音處理(NLP)系列(五)——詳解智慧問答系統

自然語言處理(NLP)應用場景分析?

自然語言處理是人工智慧的一個子領域。自然語言處理是探究在人與人互動中以及在人與計算機互動中的語言問題的一門學科。為了建設語言模型並使其更加完善,自然語言處理建立了計算框架,提出相應的方法來不斷的完善各種實用系統,並探討這些實用系統的評測方法。

什麼是智慧問答系統?

智慧問答系統是自然語言處理領域中一個很經典的問題,它可以用來回答人們以自然語言形式提出的問題。這需要對自然語言查詢語句進行語義分析,包括關係識別、實體連線、形成邏輯表示式,然後到知識庫中查詢可能的備選答案,再透過排序機制回答出最佳答案。

問答系統簡介

問答系統通常分為:

l 任務型機器人

l 閒聊機器人

l 解決型機器人

三種型別的機器人設計分別應用在不同的場景:

l 任務型機器人主要用於完成使用者的某些特定任務,比如:天氣諮詢、買機票、充電費等。

l 閒聊機器人主要用於深入的和使用者進行無目的交流;

l 解決型機器人主要用於解決使用者的問題,比如:商品購買諮詢、商品退貨諮詢等。

任務型問題:

l “杭州今天天氣怎麼樣?”

l “週二呢?”

l “週三呢?”

“杭州今天天氣怎麼樣?”屬於天氣類問題(其中包含實體“地點”、“時間”),並且能夠完成應答。

“週二呢?”這個問題只包含實體資訊(“時間”),並沒有包含地點資訊,如果直接採用意圖分類,則無法完成此次應答。

“週三呢?”這個問題和上一個問題一樣,同樣只包含實體資訊(”時間“)。

針對此類的多輪對話場景,可採用slot filling的方式進行應答。Slot filling是由多個槽值組成,例如:天氣場景需要實體槽值“地點”和“時間”)。“週二呢?”和“週三呢?”只包含“時間”實體,但是上文“杭州今天天氣怎麼樣?”中還包含了“地點”實體,只需要將下文的實體(“時間”)替換上文的實體(“時間”)即可。

自然語音處理(NLP)系列(五)——詳解智慧問答系統

解決型問題:

l “這件衣服多少錢?”

l “運費需要多少錢?”

l “支援七天無理由退貨嗎?”

針對以上的多輪對話,包含商品的購買、售前運費和退換貨三個不同的意圖,並且後面的意圖分析需要了解前文的會話意圖。

“這件衣服多少錢?”可透過單句的意圖分類即可完成應答。

“運費需要多少錢?”則需要結合上文問題的方式進行意圖分析再作出響應的回答:①抽取上文的意圖特徵加入當前問題可解決部分上下文場景問題;②結合上文和當前問題採用深度學習的演算法進行上下文的意圖分析。

“支援七天無理由退貨嗎?”需要知道商品的資訊才可以回答使用者的問題,因此需要了解上文商品“衣服”(需要將對話中實體、商品資訊儲存用於下文應答當中)。

閒聊型問題:

l “在幹嘛?”

l “在工作,有點忙。”

l “晚上一起吃飯嗎?”

l “好呀,晚上見!”

針對以上閒聊型問題,由於使用者並無明確的意圖,因此不適合做意圖分類,因此我們可以採用生成式模型,根據大量使用者歷史的閒聊語料生成相應的答案。生成式模型得到的答案可能存在語法、連貫性問題,但閒聊場景的對話對語句連貫性和語法要求相對不高,較隨意。

資料標註的重要性

近年來,作為人工智慧的三大決定性影響因素:演算法、算力和資料,在過去的幾年中也取得了很大的突破。NLP基於大規模的帶標註的資料進行端對端的學習,已取得了不小的進步。隨著NLP模型變得越來越大,需要更多更精準的標註資料對其進行訓練。

景聯文科技提供nlp標註服務

景聯文作為長三角地區規模最大 的AI基礎資料服務商之一,為客戶提供全鏈條AI資料服務,從資料採集、清洗、標註、到駐場的全流程、一站式AI資料服務,協助人工智慧企業解決整個人工智慧鏈條中資料標註環節的相對應問題。

並於2020年上線了自有標註平臺,保證資料的安全合規性,涵蓋了絕大多數主流標註工具,支援NLP標註業務,包括OCR轉寫、文字資訊抽取、NLU語句泛化等標註,現有資料庫擁有相關成品資料集100T。

景聯文科技透過智慧化的標註平臺產品賦能AI訓練資料行業,擁有實時量化的視覺化管理系統,包括資料集管理、專案管理、人員管理、供應鏈管理等內容,擁有全面的質檢流程,能夠有效提高人機協作效率,擴大產能,及時調整標註方案,做好逾期風險管控,準確把控資料質量問題;對全職採標團隊建立完善的人員培訓、管理體系,推出整套AI產業人才培養解決方案,分別開通理論課程、實訓課程、結業考試等培養專案,透過理論與實踐相結合為行業輸送高素質資料採集標註員。

自然語音處理(NLP)系列(五)——詳解智慧問答系統

文字採集案例:

一、需求:

11國語言語料文字採集110萬條,每個語種包含天氣、導航、影片、語音等30個意圖。

二、專案難點:

採集內容獵廣難度大,在限制多的情況下,要用不同的句式來表達同一個意思,對採集人員素質能力要求高;資料量大,工期緊張。

三、解決方案:

配備3年以上文字採集專案管理經驗且精通多國語言的專案經理和採集團隊;配置專屬商務、專案經理、採集員、質檢員、技術人員,根據專案要求進行專案結構分析,基於WBS原理將專案按照其內在結構和實施過程的順序進行逐層分解成樹狀圖,形成相對獨立、易於管理和檢查的專案各單元專案責任、進度等具體地落實到本專案每個參與者,確保採集資料質量。

自然語音處理(NLP)系列(五)——詳解智慧問答系統

景聯文科技|AI基礎資料服務|資料採集|資料標註|假指紋製作|指紋防偽演算法

助力人工智慧技術加速數字經濟相關產業質量變革,賦能傳統產業智慧化轉型升級

文章圖文著作權歸景聯文科技所有,商業轉載請聯絡景聯文科技獲得授權,非商業轉載請註明出處。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70025739/viewspace-2933535/,如需轉載,請註明出處,否則將追究法律責任。

相關文章