語言分析技術在社會計算中的應用

哈工大SCIR發表於2016-01-31

本文轉載自智慧立方公眾號。作者:劉知遠,清華大學助理研究員


傳統社會科學研究中的資料主要通過調查問卷或口頭採訪等方式獲取,既耗時耗力,資料規模也很受限。進入網際網路時代後,人類社會越來越多的資訊以線上形式出現,為社會學研究提供了豐富的資料支援。特別是進入Web 2.0時代後,以使用者為中心的服務(如微博、社交網站等)積累了大量的使用者產生內容,包括使用者個人檔案(如性別、年齡、職業等資訊)、使用者社交關係網路(如關注關係、好友關係等)和文字資訊(如微博、個人狀態、部落格等)等,成為社會學研究絕佳的資料來源。

順應該趨勢,2009年由哈佛大學學者David Lazer牽頭的來自資訊科學、社會學和物理學的15位學者在Science雜誌上聯名發表文章,提出了“計算社會學”(Computational Social Science或Computational Sociology)(Lazer, et al. 2009),闡述了利用計算手段從大資料中揭示社會學規律的學術思想和趨勢,標誌著社會學進入到資料計算時代。短短几年內,計算社會學已成為人文社科領域近年來最重要的研究正規化。Science、Nature和美國國家科學院院刊等國際頂級學術期刊上大量湧現計算社會學的研究成果(Schich, et al. 2014, Lieberman, etal. 2007, Michel, et al. 2011, Bond, et al. 2012),眾多學術期刊出版專刊介紹計算社會學研究進展。美國還成立了計算社會學學會,George Mason大學甚至成立了計算社會學系,併成為世界上第一個正式授予計算社會學博士學位的單位。計算社會學無論對於揭示人類與社會規律,還是對於使用者個性化服務,均具重要意義,因此基於社會媒體大資料的計算社會學研究,在學術界和產業界均引起廣泛關注。

自然語言是社會媒體海量資料的重要組成部分,蘊藏了與使用者及其複雜關係有關的豐富資訊,是社會語言學、社會心理學等社會學分支的重要研究物件和研究角度,但是這些社會學分支所需的資訊都隱藏在複雜的語言背後,需要利用自然語言處理和理解技術挖掘出來,才能被計算社會學研究進一步加以利用。 隨著機器學習和自然語言處理技術的發展,如何更好地分析社會媒體大資料中的自然語言已經成為計算社會學中的研究熱點,近年來吸引了眾多學者的研究興趣,並已初具規模。

本文將綜述最近在這方面的典型工作,並試圖總結未來的研究趨勢,希望對我國學術界和產業界在計算社會學的研發能夠有所助益。

1、面向社會媒體的自然語言使用分析

傳統的自然語言處理主要面向正式文字,例如新聞、論文等。這些文字遣詞造句比較規範,行文符合邏輯,因此比較容易處理。自然語言處理技術按照處理目標分為幾個層次:(1)詞彙層。主要是在詞彙級別的處理任務,如中文分詞、詞性標註、命名實體識別等。(2)句法層。主要是在句法級別的處理任務,如針對句子的句法分析、依存分析等。(3)語義層。主要是在語義空間的處理任務,例如語義分析、語義消歧、複述等。(4)篇章層。主要是在篇章級別的處理任務,如指代消解、共指消解等。(5)應用層。主要是指利用自然語言處理分析技術完成的應用任務,如文字分類、資訊抽取、問答系統、文件摘要、機器翻譯,等等。關於自然語言處理技術的詳細介紹可以參考(Jurafsky, et al. 2000,Mannin & Schütze 1999)。

進入社會媒體時代,使用者產生的大量文字內容無論從詞彙到造句都更加非正式,不僅存在大量拼寫錯誤,還有很多網路產生的新用法,甚至出現專門的術語“網路用語”來命名這種現象。那麼,自然語言處理技術如何分析社會媒體文字呢?研究者提出了文字正規化(text normalization)的任務,通過拼寫糾錯、詞彙替換等方式,將非正式的網路文字轉換為正式文字,然後再利用傳統自然語言處理技術進行分析。當然這樣還不夠,研究者們還開始研究專門面向社會媒體文字特點的自然語言處理技術。

這裡介紹的重點並不是面向社會媒體的自然語言處理技術,而是利用這些處理技術對社會媒體中的語言使用開展的分析工作。接下來,我們將介紹人們已經從社會媒體語言使用方面得到的主要成果。


1.1 詞彙的時空傳播與演化

詞彙是自然語言的基本表意單位,也是自然語言處理的基礎。利用詞彙在時空中的變化開展社會學研究在國內外都不鮮見。金觀濤和劉青峰通過分析近代文獻中的特定詞彙使用情況,探討了中國現代重要政治術語的形成(金觀濤&劉青峰 2009)。最近,哈佛大學研究團隊利用Google Books收集並掃描識別的1800年到2000年之間的500萬種出版物(占人類所有出版物的4%),通過不同關鍵詞使用頻度隨時間的變化,分析了人類文化演進特點,做出了很多驚人的或有意思的發現。例如,他們發現在過去幾百年裡英語中越來越多的不規則變化動詞演化成了規則變化動詞(Lieberman, etal. 2007)。再如圖8.1所示,通過Google Books中歷年來使用“The United States is”和“The UnitedStates are”的統計趨勢圖,可以定量分析美國作為一個統一國家的概念是如何慢慢形成的(Aiden&Michel2013)。他們甚至為此提出“文化組學”(culturomics,仿照“基因組學”發明的新術語)的概念(Aiden&Michel2013,Michel, et al. 2011)。正如文獻(Aiden&Michel 2013)的副標題“Big Data as a Lens onHuman Culture”所暗示的,基於大資料的定量分析為社會科學研究提供了一個全新的視角。

語言分析技術在社會計算中的應用

圖1  通過Google Books中歷年來使用“TheUnited States is”和“The United States are”的統計趨勢圖,可以定量分析美國作為一個統一國家的概念是如何慢慢形成的。來自文獻(Aiden & Michel 2013)

在社會媒體中,新的詞彙產生後,就會隨著資訊流動而進行傳播和演化。一方面,新詞彙的流行程度和形式會隨著時間而演化,出現爆發(burst)和變形(variance)。不同新詞彙的爆發程度和變形情況可能會受到不同因素的影響。另一方面,社會媒體中的使用者分佈在世界各地,其社交圈子往往會受到地理位置的限制,因此新詞彙在社會媒體中使用者間的傳播,也會反映在地理位置的擴散上。一個詞彙可能會首先在某個地域流行,然後逐漸擴散到全國,甚至全世界。

探索詞彙的時空傳播與演化,研究意義重大,相關技術也比較容易做到。目前已有關於英語詞彙在社會媒體中的時空傳播的研究。史丹佛大學Leskovec等人(Leskover, et al. 2009)從不同來源收集了約9千萬篇新聞文章,利用引號從新聞中自動抽取流行語句,命名為模因(meme)。通過跟蹤這些模因的使用頻率隨時間而變化的情況,能夠及時、有效地把握美國政治、經濟和文化生活,如圖8.2所示。例如作者提到的典型模因“you can put lipstick on a pig”(為豬塗上口紅)即是2008年美國總統大選中奧巴馬諷刺競選對手時引用的一句諺語,全句是“你就算給豬塗上口紅,它也還是隻豬”,當時引起了選民的廣泛爭議,也讓最早出現於上世紀20年代的諺語“lipstick on a pig”重新流行起來,一時間成了美國人民很愛用的一個短語。通過文獻(Leskover, et al. 2009),我們可以看到作者巧妙地使用了流行語作為社會熱點問題的指標。

語言分析技術在社會計算中的應用

圖2  MemeTracker提供的模因時序變化趨勢,其中大紅色代表“you can put lipstick on a pig”。來自網站http://www.memetracker.org/

此外,值得注意的是,文獻(Leskover, et al. 2009)作者巧妙地藉助引號這種“顯式標註”從海量文字中自動發現長度可變的流行語,有效地降低了識別流行語的計算難度。近年來,清華大學計算機系孫茂松教授系統地總結了這類研究思路,提出了“基於網際網路自然標註資源的自然語言處理”的研究正規化(孫茂松 2011),這對於如何有效利用大規模網際網路資料具有極大的啟發意義。Leskovec研究團隊還更進一步,通過聚類演算法研究資訊擴散的時序特徵,分析Twitter和部落格中模因使用的時序資訊,共總結出6種時序曲線的主要形狀(Yang & Leskover 2011)。

上述研究主要對流行語使用頻率的時序變化進行了分析,也有學者考察了社會媒體中詞彙與地域的關係。Eisenstein 等學者(Eisenstein, et al. 2010)發現同樣的話題在不同地域會以不同的方式提出和討論,為了探究Twitter中文字與使用者所處地域的關係,他們建立了一個瀑布模型(cascading model),用來分析詞彙變化如何同時受到話題和地域的雙重影響,並把地理空間按照語言學上的群體進行分割,試圖通過文字本身去預測那些沒有標註的使用者所處的地域。詞彙在地域上的差異和演化,與許多因素有關,如不同地域的文化風俗、地標建築、方言俗語,等等。

詞彙是文字中負載資訊的基本單位,考察社會媒體中詞彙的時空傳播與演化,無論對語言演化研究,還是對社會管理,均具重要意義。

1.2  語言使用與個體差異

人格心理學和社會語言學的相關研究認為,人們的個體差異會反映在他們語言使用的特點上。因此,如何定量建立起語言使用與個體差異之間的關聯,是學者關心的重要話題。這方面最具代表性的工作,是20世紀90年代Pennebaker和King提出的Linguistic Inquiry and Word Count(LIWC)方法(Pennebaker & King 1999)。其基本思想是以詞彙作為語言使用定量分析的基本單位,首先通過人工收集、標註的方式建立不同類別的詞典(如代詞、數詞、情感詞等),然後在給定的個體或群體對應的文字中進行詞頻統計,從而建立起個體差異(即不同人格)與詞類比例(即語言使用特點)之間的關聯關係。經過數次修訂後,LIWC已經形成了70餘種分類詞典,相關軟體可以通過官方網站http://www.liwc.net/購買,而臺灣地區學者黃金蘭等人也在Pennebaker教授的授權下建立了中文版LIWC詞典(Huang, et al. 2012),可以通過http://cliwc.weebly.com/訪問。

目前,從語言使用的角度探索個體差異的研究,大部分採用了類似於LIWC的研究正規化。Pennebaker教授的研究團隊就在這方面做了大量有影響力的工作。他們發現,抑鬱與自殺者往往會在文字中發出可偵測的求救訊號(Chung & Pennebaker 2007);初次約會的時候物件之間幾分鐘的對話就可以預測彼此的好感,而情侶間的對話也可以預測幾個月後持續交往的概率(Ireland, et al. 2011);團隊的凝聚力和合作傾向也可以通過內部對話做出預測(Gonzales, et al. 2010);謊言的相關語言特性也有助於分辨真假(Newman, et al. 2003);語言使用分析還將有助於結識新朋友(Pennebaker & King 1999);語言使用還與年齡有千絲萬縷聯絡(Pennebaker & Stone 2003)等等。

然而,以上研究仍然未脫離傳統社會學研究的藩籬,大部分是在受限的小規模資料上開展的。而在大規模線上社會媒體背景下,通過語言使用分析個體差異更凸顯其重要性,一方面,很多在小規模資料上建立的社會理論需要在大規模真實資料進一步驗證或再發現;而另一方面,利用社會媒體使用者產生的文字資料推測使用者的人格或心理特點,在個性化推薦服務中發揮重要作用。因此近年來,在社會計算領域提出了使用者建檔(user profiling)的研究任務,旨在利用使用者產生內容預測使用者的各種屬性,既包括使用者的各種簡單屬性,如性別(Burger, et al. 2011,Fink, et al. 2012)、年齡(Goswami, et al. 2009)和地理位置(Rao, et al. 2010,Li, et al. 2012)等,也包括使用者的複雜屬性,如興趣(Yang, et al. 2011)、政治傾向(Rao, et al. 2010)、性格特點(Mairesse, et al. 2007,Schwartz, et al. 2013)和主觀幸福感(Frank, et al. 2013,Mitchell, et al. 2013,Dodds, et al. 2011)等。

前述基於LIWC的研究與使用者建檔研究的主要不同在於:(1)前者側重於人格差異與語言使用之間的關聯關係的發現,而後者側重於將語言使用作為特徵來建立預測使用者屬性的模型。(2)前者更純粹地考察語言使用與個體差異的關聯,而後者則會將語言使用與使用者的其他方面的特徵(如使用者的社會網路結構、線上行為模式等)綜合起來進行屬性預測。(3)前者對語言使用的分析還基本停留在詞頻統計的層面,而後者則充分利用了機器學習和自然語言處理領域的最新研究成果,如向量空間模型(Manning et al. 2008)、隱含主題模型(Steyvers & Griffiths 2007)、時間序列分析(Hamilton 1994)等,其定量分析的廣度和精度均為前者所不及。

目前面向大規模線上社會媒體的語言使用與個體差異的關係研究尚處於起步階段,一方面線上社會媒體為研究提供了更豐富的分析素材和角度,而另一方面機器學習和自然語言處理的發展也為語言使用分析提供了更豐富的維度。可以預期,未來將能看到關於語言使用與個體差異的更多、更深層次的分析和發現。


1.3  語言使用與社會地位

語言是人類相互交流的工具,而社會中的人存在著地位差異。那麼語言使用方式與人的地位差異有什麼關係呢?這是一個社會語言學經典問題。

社會語言學理論提出,地位越低的發言者需要從語言上去適應地位越高的聽者,而相反,地位越高的人則不需要調整自己的語言方式去適應別人(Gonzales, et al. 2010)。在過去由於缺少相關大規模資料,有關理論一直缺少定量分析的支援。美國康奈爾大學Danescu-Niculescu-Mizil(以下簡稱Mizil)等學者對這個問題進行了深入探討,做出了一系列開創性的研究成果。

Mizil等人(Danescu-Niculescu-Mizil, et al. 2012)選取線上和線下兩個場景驗證了交流行為是如何體現權力關係的。兩個場景分別是維基百科中編輯的線上討論,以及法庭庭審現場的辯護對話。值得注意的是,這裡所謂的語言使用方式,並不是實詞的使用,而是虛詞的使用,甚至可能連發言者都沒有注意自己這種發言方式的變化。該研究定量驗證了參與討論的人之間權力的差異會在兩人如何迴應對方的語言方式上有所體現。

該理論也在Twitter平臺上得到了驗證(Danescu-Niculescu-Mizil, et al. 2011)。首先,作者同樣利用介詞等虛詞的使用情況,考察了交流雙方的語言風格是如何彼此適應的。然後,作者考察了交流雙方之間影響的不對稱性,以及這種不對稱性與社會地位的關係,即地位高的人不會去適應地位低的人,而地位低的人要付出更多去適應地位高的。研究結果表明,雖然Twitter對交流增加了一些限制(非面對面,非實時,而且只能說140個字),但交流中仍然有比較明顯的語言適應行為。

禮貌用語的使用與社會地位之間也有密切關係(Danescu-Niculescu-Mizil, et al.2013A)。作者分別對維基百科編輯和Stack Exchange論壇的討論者進行研究,把使用者對他人提出請求時的對話摘錄出來,其中一句是真正的請求,而另一句是客套話,然後由標註者為其禮貌程度進行評價。研究結果表明,維基百科編輯在選舉中試圖獲得更高地位時會更加禮貌,而一旦選上後,禮貌程度就會下降。這種情況也同樣出現在Stack Exchange上,人們的禮貌程度與地位呈反比關係。

該理論還被用來定量分析社群使用者的語言使用變化情況(Danescu-Niculescu-Mizil,et al. 2013B)。作者以兩個大型啤酒討論社群作為研究物件,發現使用者在社群中一般會經歷兩個階段,在第一個階段他們剛進入社群,會積極學習適應社群的語言使用規則,而接下來他們逐漸不再做出改變,任由規則變化,最後逐漸退出社群主流群體。該研究工作的學術意義在於,定量探索了在社群與個人的相互作用下,語言使用規則變化的複雜性。

Mizil等人開創性地在社會媒體大資料上定量驗證了社會語言學中的重要理論,並進一步利用該理論展開社會學研究。社會語言學乃至社會心理學中仍有大量的理論,有待於在大規模社會媒體中得到驗證和利用,而語言使用是不可忽視的重要角度。


1.4  語言使用與群體分析

作為廣大網際網路使用者線上交流資訊和觀點的平臺,社會媒體彙集了成千上百萬使用者的產生內容,這些內容從整體上反映了人們關注的社會焦點和主要立場。從語言使用的角度,可以通過兩個方面對這些使用者進行群體分析:(1)作為文字內容的客觀部分,分析使用者群體關注的話題及其趨勢;(2)作為文字內容的主觀部分,分析使用者群體的情緒、觀點及其演化過程。

作為文字內容的客觀部分,文字的話題檢測與跟蹤(Topic Detection and Tracking,簡寫為TDT)(Allan 2002)是自然語言處理和資訊檢索領域的傳統研究問題。最初是面向新聞媒體流提出的這個研究問題,旨在發現與跟蹤新聞媒體流中的熱點話題的趨勢。在該任務中,一個話題是由一個種子事件及與其直接相關的事件組成的。在話題檢測中有很多子任務,例如話題檢測、話題跟蹤、首次報導檢測、關聯檢測,等等。面向社會媒體的話題檢測與跟蹤已經成為TDT的最新研究趨勢,如圖8.3是利用隱含主題模型分析Twitter話題並做視覺化的樣例,圖8.4則是對Twitter話題變化趨勢的分析與視覺化。當然我們可以用單詞或短語來表示話題,這樣就可以利用8.2.1節“詞彙的時空傳播與演化”中的技術。但是,從實用角度,為了增強話題檢測與跟蹤的表達和概括能力,我們往往需要藉助於隱含主題模型等技術,同時使用隱含主題和詞彙一起來展示社會媒體的話題及其演化趨勢,這是近年來的最新發展趨勢。

語言分析技術在社會計算中的應用

圖3  利用主題模型分析Twitter話題並用標籤雲進行視覺化。來自文獻(Ramage,et al. 2010)


語言分析技術在社會計算中的應用

圖4  Twitter Stream Graphs分析Twitter話題變化趨勢並進行視覺化

作為文字內容的主觀部分,使用者也會在社會媒體中表達他們的情緒、傾向和觀點等主觀情感。而社會媒體文字與傳統媒體文字(如新聞)的最大不同也在於此,因此有大量研究聚焦於社會媒體的使用者情緒和情感分析。如圖8.5所示,作者通過分析3億條Twitter資料中的情感詞彙的使用情況,探索美國人的情緒隨時間和地域的變化趨勢,可以看到美國全國各地、一週七天以及每天24小時的情緒變化,得到很多有意思的結論。例如,美國人在下午的時候會變得煩躁,而在晚上開始好轉;居住在美國西部的人普遍比東部沿海的人快樂,而位於美國南部的佛羅里達州幾乎是最快樂的地方,等等。另外一個頗有影響力的工作是“We Feel Fine”專案,作者僅通過“We Feel X”的模板(其中X是待統計的情感詞彙),在網際網路部落格等社會媒體中統計使用者的情感分佈,並用各種使用者友好的視覺化方案呈現給讀者,可以很方便地檢視不同型別使用者(如男女、年齡)的主要情緒分佈,如圖8.6是該專案的搜尋介面。可以說該工作也是充分利用網際網路的海量、冗餘的特點成功運用“基於網際網路自然標註資源的自然語言處理”學術思想的典型代表。


語言分析技術在社會計算中的應用

圖5  利用Twitter資料分析美國人情緒的時序變化。來自文獻(Mislove, et al. 2010)


語言分析技術在社會計算中的應用

圖6  We Feel Fine網站搜尋介面。來自文獻(Kamvar & Harris 2010)

2、面向社會媒體的自然語言分析應用

面向社會媒體中的自然語言分析技術有很多方面的應用,這裡著重介紹幾個有代表性的工作成果,相信在未來,會有更豐富而深入自然語言分析應用湧現出來。


2.1  社會預測

社會媒體使用者產生內容在很大程度上反映了人們在社會生活方方面的關注和立場,因此,最近被廣泛用來進行各種社會事件的預測,包括產品銷量(如電影票房收入)(Joshi, et al. 2010)、體育比賽結果(Sinha, et al. 2013)、股市走勢(Bollen, et al. 2011,Zhang, et al. 2011)、政治選舉結果(如美國總統大選)(Gross, et al. 2013,Yano, et al. 2013,Chung & Mustafaraj 2011,Williams & Gulati ,Tumasjan, et al. 2010,O'Connor, etal. 2010)、自然災害傳播趨勢(如流行病傳播)(St Louis &Zorlu 2012,Ritterman, et al. 2009),等等。

僅以政治選舉為例,很多工作發現社會媒體中關於候選人的提及率就是很好的預測指標,例如根據Facebook上的支援率就能夠成功預測2008年美國總統大選結果(Williams & Gulati 2008)。更驚人的是,《訊號與噪聲》(Silver 2012)的作者Nate Silver在2012年準確預測了美國50個州的總統選舉結果,雖然他不僅使用社會媒體中的資訊,而是充分佔據可獲得的各類資訊來進行預測,但是毫無疑問社會媒體在其中發揮了重要作用。2012年Nature上發表的一篇題為《一個6100萬人參與的關於社會影響和政治動員的實驗》的文章(Bond, et al. 2012),則系統分析了2010年美國總統大選期間Facebook使用者的相關情況,發現通過Facebook上的資訊遞送等社會動員(Social Mobilization),至少影響了現實世界中數以百萬計人群的政治自我表達和投票行為。這說明,社會媒體不僅反映了人們的各種立場,可以用於預測,而且社會媒體還會對人們的現實生活產生深遠的影響。在未來,如何將預測與干預有效結合,更好地分析、管理和利用社會媒體平臺,將是身處於大資料中的每個政府、企業和政策制定者面臨的重要課題。

毋庸置疑,由於社會媒體使用者屬性與現實社會的使用者屬性存在一定偏置,例如在我國,社會媒體上年輕人居多,收入相對較高,因此他們傳達出來的關注與觀點,並不能完全反映整個社會的立場和形勢。因此,在近年來社會預測與干預研究轟轟烈烈開展的同時,也有人反思其有效性(Gayo-Avello 2012)。但縱觀大勢,隨著移動裝置的普及和網際網路的發展,越來越多的人成為社會媒體使用者,相信只要充分正視線上社會媒體與真實社會之間存在的偏差,我們就能夠更好地利用社會媒體做好社會管理工作,更好地為人類生活服務。


2.2  霸凌現象定量分析

面向社會媒體的自然語言分析不僅可以用來進行社會預測,還可以用來支援解決社會公益問題,其中霸凌(bully)現象就是典型代表。霸凌是社會科學、尤其是青少年研究的經典研究課題。然而傳統研究方法中這個課題的資料普遍量小、缺乏、對問題的呈現不夠全面。而在社會媒體領域中關注這一話題的人士又普遍把視野侷限在了網上欺負他人這個小範圍內,沒能夠把線上線下的霸凌行為進行整合。最近有研究(Xu et al. 2012; Angela et al. 204)開始通過對Twitter上與霸凌有關的文字/敘述進行分析,而其關注的範圍包括現實和虛擬環境中的欺負行為。

在這個研究中,先是從大量的Twitter博文中選取了與霸凌有關的作為原始資料,再主要進行四個方面的分析:文字分類(把含有霸凌關鍵詞但並不相關的文字剔除)、角色判斷(判斷在欺負行為中是指責者、欺負者、受害者、報告者、還是其他)、感情分析、話題判斷。該課題也證明,面向社會媒體的自然語言分析將有助於識別霸凌現象,及時干預,給予兒童更健康的生活環境。

3、未來研究的挑戰與展望

關於面向社會媒體的自然語言分析及其應用,已然成為今年的研究熱點,呈星火燎原之勢,以上簡介限於作者所見,難免有顧此失彼、掛一漏萬之處,需要感興趣的讀者不斷探索更多的研究成果和發現。然而,通過以上研究工作,我們可大致總結出面向社會媒體的自然語言分析及其應用的發展趨勢。

(1)自然語言的深度分析。我們可以看到,僅基於詞彙層(單詞或短語)的簡單統計,就已經產生了大量影響深遠的研究工作。而近年來,伴隨著網際網路大資料爆發式增長,自然語言處理和機器學習領域飛速發展,未來將會有更多的自然語言深度分析的技術和工具不斷成熟,例如自動根據大規模文件集合進行詞彙語義聚類的隱含主題模型(Steyvers & Griffiths 2007),進行情感分析和觀點挖掘的相關技術(Liu 2012)、進行跨語言分析的機器翻譯技術(Koehn 2010)、對人類知識進行結構化管理和推理的知識圖譜(Singhal 2012),等等。這些技術和工具的不斷成熟和完善,將使我們面向社會媒體的分析如虎添翼,開啟另一雙天眼,可以看到以往所無法看到的世界,從而發現以往所不能發現的規律。

(2)跨媒體、跨平臺、跨資訊源的綜合分析。從媒體型別而言,雖然社會媒體的出現對傳統主流媒體(如國內各大新聞入口網站)產生重大沖擊,但可以看到,主流媒體和社會媒體各有側重、互為補充、深度交融,均為人們日常生活不可或缺的資訊來源,很多情況下,主流媒體的相關新聞事件可以作為社會媒體分析的大背景,是分析人格特質的重要因素,例如探索人們在面臨重大事件(如特大自然災害)時的反應,等等;從社會媒體平臺而言,無論是Twitter還是Facebook,都只反映了人們生活的某個切面,例如以Twitter為代表的微博平臺更具備自媒體特質,而以Facebook為代表的社會網路服務更具備好友圈特質,但這些平臺背後都是同樣的人,他們在不同平臺上會有怎樣不同的表現,以及這樣的表現原因是什麼,這既是社會學關心的話題,也是商業服務關心的問題,最近社會計算中的一個熱門研究問題就是社會媒體跨平臺的相同使用者識別(Vosecky, et al. 2009,Liu, et al. 2013);從資訊源而言,社會媒體使用者產生的內容非常豐富,包括文字、影象、社會網路以及大量結構化資訊(如Facebook中的個人屬性,雖然往往填寫不完整、不準確),其中文字內容固然是重要組成部分,也是本書關注重點,但其他資訊源亦扮演重要角色,例如大規模社會網路分析(Leskovec, et al. 2008)、大規模影象標註(Weston, et al. 2010),等等。未來,面向社會媒體的分析及其應用,需要將文字內容與其他資訊源充分融合,進行跨媒體、跨平臺的融合分析,只有充分進行跨媒體、跨平臺和跨資訊源的綜合分析,才能發現人類社會更復雜、更深層的科學規律。

總之,面向社會媒體的自然語言分析與應用,無論對社會學和資訊科學各領域的推進,還是對商業服務的發展,均具有重要意義,日益引起人們的關注。其原因不言而喻,語言是人類區別於其他生物的最大特點,是進化厚贈人類的最珍貴禮物,也是人工智慧、神經科學、社會語言學等領域孜孜以求希望真正理解的人類本質,還是人們進行日常交流、傳承文化的重要載體。可以想象,隨著社會媒體和網際網路產生的海量資料,隨著自然語言處理和機器學習等技術的高速發展,面向社會媒體的自然語言分析與應用必將大行其道,大有作為。

本文來源於哈工大SCIR

原文連結點選即可跳轉

語言分析技術在社會計算中的應用

相關文章