自然語言處理(NLP)
基礎:語言模型
ChatGPT能力
語言理解和生成能力
抽象能力
強大的學習和泛化能力
自然語言處理
交叉學科:電腦科學、人工智慧/機器學習、語言學等
自然語言理解:理解文字的含義
自然語言生成:用文字表達特定的意圖和思想
利用計算機對自然語言進行各種加工處理、資訊提取及應用的技術,實現人與機器之間的自然語言互動
自然語言的歧義性 -> 自然語言處理困難
詞法、句法、篇章、語義
NLP任務型別
文字分類
- 輸入:文字 \(x\)
- 輸出:文字 \(x\) 所屬的標籤 \(y\)
\[\mathcal{Y} = \mathrm{CLS}(\mathrm{ENC}(\mathcal{X}))
\]
文字匹配
- 輸入:文字 \(x_a\) 和文字 \(x_b\)
- 輸出:文字 \(x_a\) 和文字 \(x_b\) 的關係標籤 \(y\)
\[\mathcal{Y} = \mathrm{CLS}(\mathrm{ENC}(\mathcal{X_a},\mathcal{X_b}))
\]
序列化標註
- 輸入:文字 \(x\)
- 輸出:文字 \(x\) 中每個單詞 \(x_i\) 的標籤 \(y_i\)
\[y_1,...,y_n = \mathrm{DEC}(\mathrm{ENC}(x_1,...,x_n))
\]
機器閱讀理解
- 輸入:文字 \(x_p\) 和問題 \(x_q\)
- 輸出:根據文字 \(x_p\) 生成問題 \(x_q\) 對應的答案
\[y_k,...,y_{k+l} = \mathrm{DEC}(\mathrm{ENC}(\mathcal{X_p},\mathcal{X_q}))
\]
序列到序列
- 輸入:文字 \(x\)
- 輸出:文字 \(x\) 對應的文字 \(y\)
\[y_1,...,y_m = \mathrm{DEC}(\mathrm{ENC}(x_1,...,x_n))
\]
情緒智慧
人機互動與情緒智慧
研究價值:
-
建立分析與理解人類情感的理論和方法。
-
推動自然語言處理技術的發展。
-
促進交叉學科研究:情感、認知、社會之間的複雜關係。
應用價值:
- 個人:情緒支援、消費策略等
- 企業:企業決策、廣告營銷、產品改進等
- 國家:輿情分析、情緒管理、政策制定等
- 國際:輿論對抗、情緒操縱等
研究動機:
- 已有工作忽略了文字中的感性評價(使用者)和理性評價(商品)。
- 感性評價和理性評價從不同角度影響文字的情感極性。
基於使用者&商品注意力的情感分類框架[AAAI 2018]
面向屬性的觀點詞抽取[NAACL 2019]
- 面向屬性的觀點詞抽取:給定屬性詞,從文字中抽取屬性對應的觀點詞。
- 研究細粒度情感分析中重要屬性詞-觀點詞對應關係。
- 觀點詞可以作為屬性情感的原因,提供決策依據。
統一的細粒度觀點抽取框架[EMNLP 2020]
細粒度觀點詞抽取
- 從文字中抽取所有的觀點三元片語<方面目標,觀點詞,情感極性>。
- 流水線方案存在錯誤傳播問題。
- 涉及多個元素抽取、配對任務,很難端到端求解。
解決方案:網格標註方案(Grid Tagging Scheme, GTS):將抽取、分類等不同形式的子任務轉換為統一的詞對標註任務。
- 抽取:屬性詞抽取、觀點詞抽取。
- 分類:情感分類、屬性詞和觀點詞的配對分類。
面向目標的多模態情感分類[COLING 2022]
任務定義:給定一對文字和圖片以及文字中待分析的目標物件,判斷目標物件的情感極性。
研究動機:
- 文字不一定包含情感資訊,有時需要從圖片獲得精確的情感區域來幫助判斷情感極性。
- 在小規模訓練資料集上,很難獲得精確的情感對齊資訊。
知識增強的多模態情感分類框架
- Adjective Noun Pairs(ANP)[Borth et al., 2013]:利用大規模視覺知識提取工具抽取圖片中的形容詞-名詞對。
- 名詞能幫助對其文字中的目標物件,形容詞能幫助判斷目標物件的情感極性。
大模型性格控制[2024]
研究動機
- 不同大模型展示出不同的合成性格,有時表現出冒犯性和攻擊性。
- 模型架構、訓練資料、訓練方法對大模型合成性格的影響不得而知,無法控制。
研究展望1:多模態情感理解與推理
- 多個物件的情感分別是什麼?
- 他們的情感是否有關聯?
- 他們的情感是如何影響並相互轉化的?
研究展望2:情感/個性化對話與生成
- 生成帶有情感/個性化的對話回覆
- 個性化Chatbot
- 醫療:同理心回覆,抑鬱康復
- ......
研究展望3:情緒激發
- 將目標物件的情緒激發至特定的狀態。
- 教育:激發學習興趣
- 醫療:抑鬱康復
- 商業:廣告營銷
- 軍事:情緒操縱
- ......