論文合著者Rahul Goel解釋說,該系統的設計是得益於兩種機器學習技術:transfer learning和copying mechanism。Transferlearning,是指從現有的人工智慧系統遷移知識,以減少訓練一個新模型需要的大量資料;Copyingmechanism,是讓模型處理從未見過的字詞。
傳統上,Alexa根據說話者的意圖(例如播放音樂、歌曲名稱和演唱者姓名)和實體插槽(如Marvin Gaye的《What 's Going On?》)解析請求。但是這種方法需要大量手工註釋,很容易出錯。例如,“addapples and oranges to shopping list” and “play music”這個請求包含兩個主要條款(“add…to shopping list”和“play music”),由“and”這個編碼連線,然後解碼器將該命令解碼成一個資料集”(and(addToListIntent(add(ItemName(Apples))(ItemName(Oranges))))(PlayMusicIntent(Mediatype(Music))))”來實現命令。
但簡單的意圖和插槽標記不適用於像“Alexa, add peanut butter and milk to theshopping list and play music”這樣的請求。處理這樣的具有複合意圖和插槽值的請求需要一個語義解析器,分析句子的結構和組成部分的含義。
因此Alexa的研究人員不這麼做,他們根據說話者的意圖和實體插槽將所有標記的資料轉換成多個解析樹,或轉換成描述請求語法結構的決策樹。該團隊的語義分析器通過對輸入流一系列移位和減少操作進一步構建這些樹,其中“移位”是指移動到輸入流中的下一個單詞,“減少”是指確定該詞在樹中的最終位置。一直以來,注意力機制跟蹤解析器的任務就是檢查得到的資料,並確定是使用內部詞典中的單詞,還是複製輸入流中的單詞。
The semantic parse tree of the instruction "add apples andoranges to shopping list and play music"
研究人員報告說,在使用Alexa互動提供的自然語言理解(NLU)資料進行的測試中,僅使用複製機制就能將整體模型的平均正確率提升61%,而加上遷移學習能夠再提升6.4%。在另一組獨立的問答測試中,說話者使用了兩個公共資料集(比如“你可以在外面的哪家餐館吃飯?”或者“科比在2004年搶斷了多少次?”),測試結果顯示遷移學習將模型的表現提升了10.8%。。
“我們的語義分析器在自然語言理解和問答任務上都提高了效能,這一事實表明,它有望成為一種表示意義的通用技術,也可以用於其他應用,”Rahul Goel寫道。
這項研究計劃於6月在路易斯安那州新奧爾良舉行的計算語言學協會北美分會第16屆年會上發表。
博文連結:
https://developer.amazon.com/zh/blogs/alexa/post/ce2e3e1c-5f21-4c53-b274-59de34cd4015/alexa-turn-down-the-lights-and-play-music-the-science-of-handling-compound-requests
論文: “Practical Semantic Parsing for Spoken Language Understanding”
論文連結:https://arxiv.org/pdf/1903.04521.pdf