經典的細粒度情感分析(ABSA,Aspect-based Sentiment Analysis)主要包含三個子任務,分別為屬性抽取、觀點抽取以及屬性-觀點對的情感傾向判定三個級聯任務。本文介紹了美團到店到餐應用演算法團隊通過結合學界最先進的閱讀理解、注意力機制等方面的實體抽取、情感分析經驗,解決到餐(菜品,屬性,觀點,情感)四元組抽取問題,並在多個業務場景應用落地,希望能對從事相關工作的同學有所幫助或啟發。
一、背景
作為一家生活服務線上電子商務平臺,美團致力於通過科技連結消費者和商戶,努力為消費者提供品質生活。到店餐飲(簡稱到餐)作為美團的核心業務之一,是滿足使用者堂食消費需求、賦能餐飲商戶線上運營的重要平臺,在服務百萬級別的餐飲商戶和億級別C端使用者的過程中,積累了海量的使用者評論資訊(User Generated Content, UGC),包含了使用者到店消費體驗之後的真情實感,如果能夠有效提取其中的關鍵的情感極性、觀點表達,不僅可以輔助更多使用者做出消費決策,同時也可以幫助商戶收集經營狀況的使用者反饋資訊。
近年來,大規模預訓練模型(BERT)、提示學習(Prompt)等NLP技術飛速發展。文字分類、序列標註、文字生成各類自然語言處理任務的應用效果得到顯著提升,情感分析便是其中最常見的應用形式之一。它的任務目標在於通過NLP技術手段對輸入文字進行分析、處理、歸納、推理,給出文字情感極性判定的結果。
按照情感極性判定粒度,可以細分為篇章/整句粒度情感分析、細粒度情感分析(ABSA, Aspect-based Sentiment Analysis)[1]。一般而言,細粒度情感分析的任務目標主要圍繞屬性(Aspect Term)、觀點(Opinion Term)、情感(Sentiment Polarity)三要素展開,可以拆分為屬性抽取、觀點抽取以及屬性-觀點對的情感傾向判定三個級聯任務[2-5]。例如,對於給定的使用者評論“這家店環境不錯,但服務很糟糕”,預期的輸出結果為(環境,不錯,正向)、(服務,糟糕,負向)。
到餐演算法團隊結合到餐業務供給側、平臺側、需求側的業務場景,為核心業務鏈路的智慧化提供高效、優質的演算法解決方案,通過演算法能力輔助業務降本提效。本文結合到餐B/C端業務場景,探索細粒度情感分析技術在使用者評價挖掘方向的應用實踐。
二、目標回顧
2.1 業務問題
秉承“幫大家吃得更好,生活更好”的使命,到餐面向消費者提供包括套餐、代金券、買單、預訂等在內的豐富產品和服務,並通過黑珍珠餐廳指南、大眾點評必吃榜等榜單,以及搜尋、查詢、評價等,幫助消費者更好地作出消費決策。同時,為商家提供一站式的營銷服務,幫助餐飲商戶沉澱口碑、獲取使用者、增加復購等,進而輕鬆管理餐廳。
隨著餐飲連鎖化加速、行業競爭格局激烈,商戶管理寬幅和難度逐步加大,商戶的經營要求更加精細,資料管理意識更加迫切。使用者歷史評論中蘊含著大量使用者消費後的反饋,是情感分析的重要組成部分,不僅能夠描述消費感受,同時也能反映出就餐環境的好壞。因此,做好情感分析有利於幫助餐飲門店提升服務質量,也能夠更好地促進消費體驗。
UGC評價分析,主要是從評論文字中挖掘出菜品、服務、食品安全(簡稱食安)等方面相關資訊,獲取使用者在各個維度的細粒度情感,細緻刻畫商家的服務現狀,如上圖2所示。對於餐飲商戶,菜品、服務、食安評價分析問題可以拆解如下:
- 菜品評價,主要包括使用者評論中的菜品識別、評價屬性提取、菜品觀點提取、觀點情感分類;
- 服務評價,主要包括使用者評論中評價屬性提取、服務方面觀點提取、觀點情感分類;
- 食安評價,主要包括使用者評論中評價屬性提取、食安方面觀點提取、觀點情感分類。
其中問題2和3是典型的三元組抽取任務,即識別服務或食安方面的(屬性,觀點,情感)。對於問題1,在服務、食安評價問題的基礎上,菜品評價需要識別評論中提及的菜品,相比業界四元組(屬性,觀點,屬性類別,情感)[6]抽取任務,到餐場景下主要為 (菜品,屬性,觀點,情感)四元組的識別。
2.2 技術調研
在美團內部,我們針對UGC評價分析問題,調研了相關工作成果,主要為基於MT-BERT預訓練模型開發了多工模型,試圖解決情感分析中的ACSA (Aspect-Category Setiment Analysis) 問題以及(屬性,觀點,情感)三元組抽取問題,並實現了句子粒度的情感分類工具開發,同時開源了基於真實場景的中文屬性級情感分析資料集ASAP[7-9]。但對於美團到餐業務來說,我們需要基於具體場景提出針對性的解決方案,如四元組抽取任務,不能直接複用其他團隊的相關技術和工具,因此有必要建設服務於到餐業務場景的細粒度情感分析技術。
在業界,我們也調研了行業其他團隊如騰訊、阿里在細粒度情感分析方面的相關研究。2019年騰訊AI Lab和阿里達摩院合作[3],提出了基於兩個堆疊的LSTM和三個元件(邊界引導、情感一致性和意見增強)的模型,將“BIOES”標註體系與情感正向(Positive)、中性(Neutral)、負向(Negative)結合形成統一標籤,可以同時識別屬性和情感。同年,阿里達摩院提出了BERT+E2E-ABSA模型結構,進一步解決屬性和情感的聯合抽取問題[10],同時提出(屬性,觀點,情感)[2]三元組抽取任務,並給出了兩階段解決框架,首先分別識別出屬性(情感融合為統一標籤)和觀點,然後判斷屬性-觀點是否配對。
自此,業界後續研究開始向三元組聯合抽取展開[11-14]。2021年2月,華為雲[6]提出(屬性,觀點,屬性類別,情感)四元組抽取多工模型,其中一個任務識別屬性和觀點,另一個任務識別屬性類別和情感。2021年4月,騰訊[15]引入Aspect-Sentiment-Opinion Triplet Extraction (ASOTE)任務,提出了一個位置感知的BERT三階段模型,解決了(屬性,觀點,情感)三元組抽取問題。
調研機構 | 行業 | 預訓練模型 | 細粒度情感分析問題 | 閱讀理解問題 | 三元組問題 | 四元組問題 | 聯合抽取問題 |
---|---|---|---|---|---|---|---|
阿里達摩院[2,10] | 電子商務 | ✓ | ✓ | ✗ | ✓ | ✗ | ✓ |
華為雲[6] | 雲服務 | ✓ | ✓ | ✗ | ✗ | ✓ | ✓ |
騰訊[15] | 社交 | ✓ | ✓ | ✗ | ✓ | ✗ | ✗ |
美團到餐 | 本地生活 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
從學術界來看,更關注於如何更好地進行實體抽取、情感分類以及多工的聯合抽取,可能會忽略工業界落地更關注的計算時效性(如多維度標註與情感維度整合,增加計算、儲存資源消耗,在有限資源下時長延遲)、效果準確性(如任務模組端到端開發,忽略業務的個性化,直接複用導致準確性降低)等方面要求,導致相關技術方法並不能直接應用於業務場景,需要進一步開發完善才能實現業務的落地。
如上表所示,針對以上調研,我們借鑑了美團搜尋與NLP部在三元組細粒度情感分析方面的經驗,拆解到餐四元組抽取問題,並結合學界最先進的閱讀理解、注意力機制等方面的實體抽取、情感分類經驗,設計開發了應用於到餐業務的細粒度情感分析解決方案。
2.3 技術目標
如上文所述,菜品評價主要關注菜品、評價屬性、菜品觀點和觀點情感,而服務、食安評價問題,主要關注服務或食安方面的評價屬性、觀點和情感。就細粒度情感分析任務而言,可以看出,前一個問題涉及四元組資訊,而後兩個問題僅涉及三元組資訊。
2.4 主要挑戰
由於三元組問題可以看作是四元組問題的子問題,不失一般性,下文將重點闡述四元組相關技術挑戰。
問題3:如何同時對四元組抽取、識別,減少pipeline方法的錯誤累計影響?
減少pipeline方法的錯誤累計影響,典型的解決方案是提出同時處理資訊抽取和分類任務,即多工學習。傳統的方法是直接嘗試多工學習的思路,但過程中忽略了實體間依賴的關係,甚至遠端關聯關係[2]。當前也在嘗試直接將四元組轉化成多工學習過程,將來期望通過建立實體間pair或triplet關係,進行聯合抽取、識別。
綜上,對於問題1和問題2,我們會按照pipeline識別的結果,再利用策略進行抽取結果的優化;對於問題3,整合實體、關係及分類任務,進行聯合學習,將有助於減少pipeline方法的錯誤累計影響。
三、細粒度情感分析實踐
3.1 Pipeline方法
如上文2.3的問題2所述,我們採用pipeline的方法,將四元組抽取問題拆解為三個任務,分為實體識別、觀點抽取、觀點類別和情感分類,如下圖4所示:
3.1.1 實體識別
自2018年BERT[16]出現以後,NER模型由傳統的LSTM+CRF替換為BERT+CRF(或者BERT+LSTM+CRF),一度是業界NER任務的SOTA模型,近兩年來NER任務主要從以下兩個方面進行改進:
- 加入額外的特徵[17-19]:如字特徵、詞特徵、詞性特徵、句法特徵、知識圖譜表徵;
- 轉換任務形式[20-21]:將NER任務轉化為問答(QA, Question Answering)任務或者機器翻譯任務。
考慮到引入額外特徵需要構建人工詞典,以及轉化問答任務形式依賴於人工模板,成本較高,因此採用BERT+CRF模型。
學習率調整,模型策略調優。在實驗過程中,我們發現BERT+CRF相比簡單的BERT+Softmax效果提升甚微,究其原因,由於預訓練模型經過微調之後可以學習到具有明顯區分度的特徵,導致增加CRF層對實體識別結果幾乎沒有影響。然而,一個好的CRF轉移矩陣顯然對預測是有幫助的,可以為最後預測的標籤新增約束來保證預測結果的合理性。進一步實驗後發現,通過調整BERT和CRF層的學習率,如BERT使用較小的學習率而CRF層使用100倍於BERT的學習率 (即$e2/e1>100$,如圖5所示),最終BERT+CRF的效果相比BERT+Softmax有了較明顯的提升。此外,在傳統NER模型LSTM+CRF基礎上,我們也實驗了BERT+LSTM+CRF,但效果居然有些許下降,而且預測時間也增加了,因此最終沒有引入LSTM層。
3.1.2 觀點抽取
觀點抽取任務在業界也稱為Target-oriented Opinion Words Extraction(TOWE),旨在從評論句子中抽取出給定目標對應的觀點詞。觀點抽取也可以看作是一種NER任務,但若評論涉及多個實體和觀點,如何準確抽取所有“實體-觀點”關係是一個技術挑戰。借鑑MRC(Machine Reading Comprehension)任務的思想,通過構建合理的Query引入先驗知識,輔助觀點抽取。
QA任務形式,觀點抽取建模。如圖6所示,模型整體由預訓練層和輸出層兩部分組成。輸出層我們使用了常規QA任務輸出,包括開始標籤(Start Label)和結束標籤(End Label),但需要人工設計Quey。參考論文[20]經驗,以圖3為例,實驗發現Query設計為“找出鮮蝦餡餃子口味、口感、分量、食材、賣相、價格、衛生以及整體評價”效果最好,可能融入了觀點描述資訊,更加有助於觀點抽取。考慮到QA任務天然有類別不平衡的問題,因此損失函式引入針對類別不平衡的Focal Loss,用於提升觀點抽取模型的效果。由於觀點抽取也可以看作是NER任務,故我們嘗試將輸出層設計為CRF層,但實驗效果並不理想,可能由於觀點語句長度不一且比較個性化,影響模型識別。另一方面,考慮到Google中文預訓練模型BERT是以字粒度為切分,沒有考慮到傳統NLP中的中文分詞,在預訓練層我們將BERT模型替換為哈工大開源的中文預訓練模型,如BERT-wwm-ext、RoBERTa-wwm等,最終模型效果取得進一步提升。
3.1.3 觀點類別和情感分類
觀點類別和情感分類可以看作兩個分類任務,其中菜品評價四元組任務的觀點類別包含口感、口味、分量、食材、賣相、價格、衛生、菜品整體等8個標籤,而情感包含正向、中性、負向、未提及等4個標籤,都是業務預定義好的。考慮到使用者評論提及某個菜品的觀點可能涉及多個維度,若每個維度單獨建模,需要構建多個模型,較複雜且維護困難。結合ATAE-LSTM[22]和NLP中心[7-9]情感分析的經驗和到餐業務特點,模型整體結構設計為多工多分類學習框架。
多工多分類模型,聯合建模觀點類別和情感。如圖7所示,模型整體分為兩個部分,分別為BERT共享層和Attention獨享層,其中BERT共享層學習觀點Embedding表示,Attention獨享層學習觀點在各個觀點類別的情感傾向。考慮到評論中各部分會聚焦不同的觀點維度,通過引入Attention結構,使得模型更加關注特定維度相關的文字資訊,進而提升整體效果。
3.2 聯合學習
pipeline方法的優點是將目標問題拆分為多個子模組問題,對子模組分別優化,通過後處理能在一定程度上解決實體間多對多關係的問題。然而,pipeline方法也會存在一些致命缺陷,主要包括:
- 誤差傳播,實體識別模組的錯誤會影響到觀點抽取模型的效能;
- 忽略了任務之間的關聯性,如實體和觀點往往一起出現,如果可以知道觀點,那麼也能判斷出所描述的實體,而pipeline方法顯然不能利用這些資訊;
- 資訊冗餘,由於需要對識別出來的實體都要進行觀點抽取,以及提取出的觀點都要進行分類,產生一些無效的匹配對,提升錯誤率。
參考業界情感分析聯合學習現狀,主要為(屬性,觀點,情感)三元組聯合抽取。結合到餐業務場景特點(如挑戰2.3的問題2所述),整體設計為兩階段模型,第一階段為對菜品實體、觀點和情感聯合訓練,第二階段為對觀點進行分類,進而得到四元組識別的結果。
3.2.1 三元組聯合抽取
目前在學術界,三元組(屬性,觀點,情感)聯合抽取的方法主要包括序列標註方法[11]、QA方法[5,12]、生成式方法[13,14]等。結合菜品分析場景和pipeline方法中觀點抽取模組的經驗,我們採取了QA式的聯合抽取方法,主要參考模型Dual-MRC[5]。
Dual-MRC模型的改進,三元組聯合抽取建模。在模型設計過程中,由於Dual-MRC模型分類情感傾向是對某個屬性的整體評價,即一個屬性只對應一個情感。然而,在到餐業務場景中,新增了菜品實體的識別,同時UGC評論中存在對同一個菜品實體包含不同觀點及情感傾向。如圖3所示,“味道特別好”表達了對“鮮蝦餃子”正向情感,而“有點貴”顯然表達了負面情感。因此,我們對Dual-MRC模型進行了改造,將觀點和情感標籤整合成統一標籤。如圖8所示,到餐Dual-MRC整體結構基於雙塔BERT模型,通過引入兩個Query,左邊負責抽取菜品實體,右邊負責抽取觀點和觀點情感,從而實現三元組聯合抽取。
模型結構說明:
- 整體是由兩個部分組成,左邊BERT抽取菜品實體,右邊BERT抽取觀點和觀點情感,將觀點和情感構成統一標籤B-{POS,NEU,NEG},I-{POS,NEU,NEG}以及O,其中未提及情感被整合到O標籤中;
- 參考pipeline方法經驗,構建兩個Quey,左邊Quey1構建為“找出評論中的菜品”,右邊Quey2構建為“找出鮮蝦餡餃子口味、口感、分量、食材、賣相、價格、衛生以及整體評價”;
- 訓練階段,對於左邊標註的每個菜品實體,都需要重複右邊流程,兩邊模型共享引數進行訓練;預測階段,由於實體不可知,採用pipeline方式,首先左邊部分抽取出所有的菜品實體,然後對於每個實體輸入到右邊部分,抽取出觀點和觀點情感。
在此基礎上,我們也探索了四元組聯合抽取的可能,具體操作為對右邊Query2進行改造,如“找出鮮蝦餡餃子口味評價”,對於每個觀點類別都需要構建Query進行預測,從而實現四元組聯合抽取。但考慮計算量級較大且耗時較長,最終將觀點類別另做預測。
3.2.2 觀點類別分類
觀點類別分類,顯然是一個文字分類問題,通常做法是基於BERT分類,取[CLS]位置的Embedding,接一個全連線層和Softmax層即可。在到餐業務場景中,主要面臨少樣本問題,參考業界NLP少樣本解決方法,以基於對比學習的R-drop[23]方法和基於Prompt[24]的第四正規化為代表。我們在BERT模型結構基礎上,分別實驗了Prompt模板方法(如圖9所示)和R-drop資料增強(如圖10所示)。其中,Prompt模板主要借鑑P-tuning[25]的思想,採取自動化構建模板的方式,基於MLM任務解決問題。
圖9中[u1]~[u6]代表BERT詞表裡邊的[unused1]~[unused6],即使用未出現的Token構建模板,Token數目為超引數。實驗結果發現,基於BERT的預訓練模型,結合P-tuning或R-drop結構,分類效果都能得到一定的提升,且P-tuning的效果略優於R-drop,後續還會持續探索少樣本解決方法。
四、在到餐業務中的應用
4.1 模型效果對比
利用到餐的UGC標註資料,對於四元組識別進行了整體效果測評,最終以整體四元組的精確率和召回率計算F1值作為效能評估指標。如圖11所示,採用經典的BERT+CRF模型進行實體抽取,在到餐評論標註資料僅達到0.61的F1,經過學習率等調參(Baseline Tuning)優化之後,F1值提升2.61%。如上文所述,在觀點抽取模組中,將序列標註問題轉化成問答(QA)問題後,採用BERT+MRC模型,F1顯著提升至0.64,提升了5.9%,表明問題轉化獲得較大收益。此外,採用哈工大中文預訓練BERT仍取得一定幅度的提升,F1提升至0.65。注意,圖11中的模型迭代表示四元組問題中重點優化模組的模型,最終評測四元組整體效果來進行對比分析。
4.2 業務應用場景
品牌儀表盤
品牌儀表盤作為旗艦店能力的重要環節,提供品牌層面的資料服務,助力生意增長。產品定位為頭部餐飲品牌的資料中心,具備基礎的資料披露能力,通過量化業務效果,指導商戶經營決策。由於大客在平臺沉澱了豐富的線上資訊(大量的交易/流量/評論資料),可挖掘分析空間較大。應用細粒度情感分析技術從評論資料中挖掘菜品維度、服務維度、食品安全維度相關資訊,量化商戶經營表現,指導經營動作。關於菜品的使用者反饋監控,品牌商戶更關注菜品、口味、口感等維度的使用者反饋。如上文所述模型迭代後,菜品情感、口味情感、口感情感識別準確率都得到一定的提升。
到餐商戶菜品資訊優化
隨著到餐加強了菜品資訊建設,主要包括在生產層面上,整合了商戶各來源菜品資料,建設了商戶菜品中心,並優化了C端菜品UGC上傳功能,有效補充UGC菜品生產;在消費層面上,整合了商戶通菜品和網友推薦菜菜品,並基於菜品資訊的完善,優化了C端菜品資訊的內容聚合及展示消費。同時配合到餐業務,持續通過評價資訊生產建設賦能,更多的引導使用者從評價生產層面進行商戶菜品的描述介紹。主要針對到餐商戶菜品關聯的評價資訊,進行資訊聯動與展示層面的優化,相比迭代前,有評價菜品覆蓋率得到較大的提升。
開店寶評價管理
商家通過提供餐飲服務來獲取使用者,使用者消費後通過評價給商家以反饋,促使商家去不斷優化,提供更好的服務,從而獲取更多的使用者,達到正向迴圈。評價分析的意義在於建立起評價和餐飲服務之間的通道,實現評價對服務的正向促進迴圈。通過分析評價內容,幫助商家發現餐廳在菜品、服務、環境等方面,做得好和做得不好的地方,進而針對性的改善。相比迭代前,菜品、服務、環境維度關聯評論數得到很大的提升。
五、未來展望
經過近一年的建設,情感分析相關能力不但成功應用到到餐商戶經營、供應鏈等業務,而且優化了多源菜品資訊,輔助品牌商戶進行使用者反饋監控,提升商戶服務能力。在聯合學習探索上,目前主要將四元組問題轉化為兩階段模型,如圖11所示,F1值有所下降,僅達到0.63。究其原因,可能是在三元組聯合抽取模型中,忽略了實體間的關係,尤其長程關係 (如上文2.4的問題3所述),導致效能不足預期。接下來,將進一步提升情感分析四元組抽取能力,挖掘UGC中使用者的核心需求以及重要反饋。在技術方面,將持續進行模型迭代演進,主要涉及:
持續優化現有模型,保證質量的同時也要提升效率
實驗結果還有很大的改進空間,需要進一步探索模型優化方法,如優化預訓練模型,使用MT-BERT等,以及在聯合抽取中進一步引入實體間關係,來提升四元組抽取的效能。
深度探索情感分析領域,建設四元組聯合抽取模型
主要通過改造Query實現四元組抽取,但是計算量級較大,需要探索模型結構優化,減少冗餘的計算量,使其滿足四元組聯合抽取。
建設細粒度情感分析通用框架
到餐場景涉及多個情感分析場景,需要建設靈活方便的通用框架,有助於快速支援業務,以及減少資源消耗。
未來,團隊將持續優化應用技術,解決到餐業務場景中的情感分析需求。細粒度情感分析是具有挑戰和前景的任務,到店餐飲演算法團隊將和各位讀者共同持續探索和研究。
六、參考文獻
- [1] Liu, B. 2012. Sentiment analysis and opinion mining. Synthesis lectures on human language technologies 5(1):1–167.
- [2] Peng, H. Xu, L. Bing, L. Huang, F. Lu, W. and Si, L.2020. Knowing What, How and Why: A Near Complete Solution for Aspect-Based Sentiment Analysis. In AAAI, 8600–8607.
- [3] Li, X. Bing, L. Li, P. and Lam, W. 2019a. A unified model for opinion target extraction and target sentiment prediction. In AAAI, 6714–6721.
- [4] Zhao, H. Huang, L. Zhang, R. Lu, Q. and Xue, H. 2020. SpanMlt: A Span-based Multi-Task Learning Framework for Pair-wise Aspect and Opinion Terms Extraction. In ACL, 3239–3248.
- [5] Y. Mao, Y. Shen, C. Yu, and L. Cai. 2021. A joint training dual-mrc framework for aspect based sentiment analysis. arXiv preprint arXiv:2101.00816.
- [6] 華為雲細粒度文字情感分析及應用
- [7] 楊揚、佳昊等. 美團BERT的探索和實踐.
- [8] 任磊,步佳昊等. 情感分析技術在美團的探索與應用.
- [9] Bu J, Ren L, Zheng S, et al. ASAP: A Chinese Review Dataset Towards Aspect Category Sentiment Analysis and Rating Prediction. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021.
- [10] Xin Li, Lidong Bing, Wenxuan Zhang, and Wai Lam. Exploiting BERT for end-to-end aspect-based sentiment analysis. In W-NUT@EMNLP, 2019.
- [11] Xu, L. Li, H. Lu, W. and Bing, L. 2020. Position-Aware Tagging for Aspect Sentiment Triplet Extraction. In EMNLP, 2339–2349.
- [12] Chen, S. Wang, Y. Liu, J. and Wang, Y. 2021a. Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction. In AAAI.
- [13] Yan, H. Dai, J. Qiu, X. Zhang, Z. et al. 2021. A Unified Generative Framework for Aspect-Based Sentiment Analysis. arXiv preprint arXiv:2106.04300.
- [14] Wenxuan Zhang, Xin Li, Yang Deng, Lidong Bing, and Wai Lam. 2021. Towards Generative Aspect-Based Sentiment Analysis. In ACL/IJCNLP 2021, 504–510.
- [15] Li Yuncong, Fang Wang, Zhang Wenjun, Sheng-hua Zhong, Cunxiang Yin, & Yancheng He. 2021. A More Fine-Grained Aspect-Sentiment-Opinion Triplet Extraction Task. arXiv: Computation and Language.
- [16] Devlin, J. Chang, M.-W. Lee, K. and Toutanova, K. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL-HLT, 4171–4186.
- [17] Yue Zhang and Jie Yang. 2018. Chinese ner using lattice lstm. arXiv preprint arXiv:1805.02023.
- [18] Li, X. Yan, H. Qiu, X. and Huang, X. 2020. FLAT: Chinese NER Using Flat-Lattice Transformer. arXiv preprint arXiv:2004.11795 .
- [19] Tareq Al-Moslmi, Marc Gallofré Ocaña, Andreas L. Opdahl, and Csaba Veres. 2020. Named entity extraction for knowledge graphs: A literature overview. IEEE Access 8 (2020), 32862– 32881.
- [20] X. Li, J. Feng, Y. Meng, Q. Han, F. Wu, and J. Li. 2020. A unified MRC framework for named entity recognition. In ACL, 5849–5859.
- [21] Jana Strakova, Milan Straka, and Jan Hajic. 2019. Neural architectures for nested ner through linearization. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 5326–5331.
- [22] Yequan Wang, Minlie Huang, Li Zhao, and Xiaoyan Zhu. 2016. Attention-based lstm for aspect-level sentiment classification. In Proceedings of the conference on empirical methods in natural language processing, 606–615.
- [23] Liang X, Wu L, Li J, et al. R-Drop: Regularized Dropout for Neural Networks[J]. arXiv preprint arXiv:2106.14448, 2021.
- [24] P. Liu, W. Yuan, J. Fu, Z. Jiang, H. Hayashi, and G. Neubig. 2021. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. arXiv preprint arXiv:2107.13586.
- [25] X. Liu, Y. Zheng, Z. Du, M. Ding, Y. Qian, Z. Yang, and J. Tang. 2021. Gpt understands, too. arXiv preprint arXiv:2103.10385.
七、術語解釋
術語 | 解釋 |
---|---|
ABSA | 細粒度情感分析,Aspect-based Sentiment Analysis |
NER | 命名實體識別,Named Entity Recognition |
TOWE | 面向目標的觀點詞抽取,Target-oriented Opinion Words Extraction |
MRC | 閱讀理解,Machine Reading Comprehension |
MLM | 語言掩碼模型,Masked Language Model |
BERT | 基於變換器的雙向編碼器表示,Bidirectional Encoder Representations from Transformers |
CRF | 條件隨機場,Conditional Random Fields |
LSTM | 長短期記憶,Long Short-Term Memory |
R-drop | 基於dropout的正則策略,regularization strategy upon dropout |
八、作者介紹
儲哲、王璐、潤宇、馬寧、建林、張琨、劉強,均來自美團到店事業群/平臺技術部。
九、招聘資訊
美團到店平臺技術部的到餐業務資料策略組菜品知識圖譜方向主要負責將菜品知識應用到到餐相關業務,使命是為到餐業務提供高效、優質、智慧的應用演算法解決方案。基於海量的到餐業務資料,應用前沿的實體抽取、關係挖掘、實體表徵學習、細粒度情感分析、小樣本學習、半監督學習等演算法技術,為到餐業務提供演算法能力支援。
業務資料策略組菜品知識圖譜方向長期招聘自然語言處理演算法專家/機器學習演算法專家,感興趣的同學可以將簡歷傳送至hejianlin@meituan.com。
閱讀美團技術團隊更多技術文章合集
前端 | 演算法 | 後端 | 資料 | 安全 | 運維 | iOS | Android | 測試
| 在公眾號選單欄對話方塊回覆【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可檢視美團技術團隊歷年技術文章合集。
| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請傳送郵件至tech@meituan.com申請授權。