知乎要用AI打造智慧社群,專治「答非所問」的瓦力機器人已上線

量子位發表於2018-04-28
允中 發自 凹非寺 
量子位 報導 | 公眾號 QbitAI

知乎涉足AI,已然不是新訊息。

去年7月,量子位專文報導過知乎在機器學習方面的運用。當時知乎合夥人李大海,分享了AI在知乎內容分發中的具體運用。

然而不到一年,在知乎運用AI的程式中,又有了新進展,而且這次更進一步,已經在運用機器學習模型理解內容

據稱,知乎打造了一個名為瓦力的機器人,可以快速處理「答非所問」和「辱罵」、「貼標籤」等不友善內容,減少低質內容給使用者的干擾。

值得一提的是,這個瓦力也在探索情感分析等AI前沿研究,通過對使用者行為資料的分析、學習,基於語義和使用者關係進行更深層次的理解和建模,從而有效識別陰陽怪氣(反諷)。

也就說是,下次回覆「就你懂,你可真是牛逼壞了」之類的反諷評論,很有可能會遭到瓦力無情處理。

具體怎麼回事?

依然由知乎合夥人、高階副總裁李大海帶來分享:AI加持的知乎,將有怎樣的體驗?

以下為李大海解讀的詳細內容,量子位編輯:

640?wx_fmt=png&wxfrom=5&wx_lazy=1

 知乎合夥人李大海

謝邀。

我們處在深度學習引發的AI熱潮裡,並且現在AI演算法已經被全面應用在內容平臺的各個環節,成為不可缺少的一部分。

業界對於AI演算法,對於平臺的商業價值,還有業務價值已經講得很多了,今天我想借此機會跟大家講講AI的人文價值,也是知乎正在如何運用AI。

引入AI演算法,幫助維護社群氛圍

知乎的誕生源於一個非常簡單的初心:我們相信,在垃圾氾濫的網際網路海洋中,真正有價值的資訊是絕對的稀缺品。

基於這樣的理念我們想建立這樣一個平臺:把使用者大腦裡彼此最重要的資訊分享出來,並且能夠互相利用。另外,這些資訊能夠沉澱下來,當有其他使用者有類似問題的時候,我們能夠方便快捷地找到相關資訊,進而讓說話使用者能夠更好地去認識這個世界。

我們認為,要讓使用者主動分享自己腦袋裡的知識、經驗、見解,一定要有開放、包容的討論環境。所以從知乎誕生第一天起,我們就使用運營和產品的手段去維護一個良好的討論氛圍。

同時,我們也是第一個把友善作為要求寫進社群規範的社群。

這個決策是非常重要的,因為在良好的社群討論氛圍下,知乎已經成為中國網際網路中最大的知識分享平臺。

截止到今年三月底,知乎已經有1.4億註冊使用者,我們全平臺的日活躍使用者超過3400萬,使用者在知乎上累計提出2300萬個問題,並收穫了接近1億的回答。

在知乎,人跟人的連線,人跟內容的連線,都已經達到了爆炸狀態。如果把知乎看成一座擁有一億四千萬居民和遊客的超級城市,這個城市的法律法規就是知乎的社群規範。

在這樣規模的城市裡,如果還是通過人工方式維護法律法規的話,一定是低效的,所以我們引入了AI前沿演算法技術,幫助知乎小管家團隊來維護社群氛圍。

我們要解決的問題都是自然語言處理領域(NLP)的問題。雖然AI在NLP領域的成果並不出色,但是在AI應用上,知乎有兩大優勢。

首先,知乎積累了一個非常高質量的中文語料庫,不僅擁有大量優質的提問和回答的文字。

同時,使用者在知乎上的行為本身也是非常重要的資料。

這個怎麼理解呢?使用者到知乎去生產和消費內容的時候,他們同時也在建設這個社群,因為他們的行為本身就是社群體系的一部分。

舉個例子,使用者對一個回答的贊同或者反對、對任何內容的舉報、對問題和話題進行公共編輯等等,在某種程度上我們都可以把它認為是對相應文字語料進行標註。

有了這樣的標註,我們就能夠利用有監督的機器學習演算法去得到一個更好的語義表示,從而對語言的理解能夠達到一個更高的層次。

另外它還會形成一個正向的閉環。因為知乎良好的社群氛圍,所以使用者在知乎上的行為大部分都是高質量的。有了這些高質量行為,我們就會有高質量的標註資料,這就更有利於我們用AI演算法維持或者提升知乎的討論氛圍。

另一方面,經過七年多的運營,知乎團隊已經培養了非常豐富的社群管理經驗。我們認識到一個社群的規範不是制定出來的,而一定是在平臺和使用者相互之間摸索出來的。

我們在摸索社群規範的過程中,理解了不同使用者的不同訴求,再根據這些不同訴求去讓規範適配複雜多變的各種場景。這些豐富的經驗對於知乎使用AI演算法來進行氛圍治理打下了堅實的基礎,對AI演算法的落地非常有幫助。

如何通過AI解決實際問題

因為它能夠把氛圍這個很虛無的大問題分解為很多小的明確的目標,降低這個問題的難度,成為可以解決的問題。

接下來講一些損害社群氛圍的例子:

第一種是答非所問。所謂答非所問,就是沒有答到點子上,離題萬里的回答。這些回答往往是沒有什麼價值的資訊,有些甚至只有情緒。所以當讀者看到這樣的無效資訊時,其實是在浪費他們的時間。

第二種是不友善的評論。換位思考一下,如果自己是一位作者,花了半天辛辛苦苦寫了一個回答,結果評論區都是不友善的回答,你們是什麼感受?即便是作為讀者,當你看到每一個精彩的答案下面的討論區都是這種烏煙瘴氣的氛圍,對你來說也不是良好的體驗。

第三種是陰陽怪氣。這雖然看起來不算什麼,但是根據我們的經驗,它對於創作者的創作熱情、創作體驗的傷害會更大。

當然損害社群氛圍的例子不僅僅是這些,我提這些只是給大家一個基本的感性認識。

經過兩年多的工作,我們建設了一個演算法機器人——瓦力,目前瓦力已經能夠線上上快速實時去響應並處理答非所問,以及不友善,像歧視、惡意貼標籤、辱罵等等低質內容,全力幫助知乎小管家團隊去減少低質內容和無關內容對使用者造成的干擾,為使用者提供人文關懷。

知乎瓦力?

目前,瓦力的準確率在部分場景中最高能達到 99.13%。我們在這個工作上有兩個方向:

  • 第一,在不同領域再進一步提高它的準確率和召回率。

  • 第二,在保證準確率的基礎上,不斷提高瓦力機器人的適用範圍。

使用者的深度參與

瓦力機器人能力的提升是離不開我們的使用者的。我們最近上線了一個「有理由反對」功能內測,有50000名使用者參與其中。所謂「有理由反對」就是使用者點選反對的時候,同時選擇一下反對的理由,包括:事實錯誤、答非過問、煽動情緒、不解釋。

使用者的每次選擇都是瓦力學習的機會。我們在內測期間通過使用者選擇判斷和瓦力智慧學習的結合,一共處理了超過20000條答非所問的回答。

升級模型

下面我從技術的角度簡單去講講我們的瓦力機器人是怎麼做的。以答非所問作為例來簡單講述。

我們最早解決這個問題的時候採用的是隨機森林的模型,什麼是隨機森林?簡單來講,就是用隨機的機制去產生很多分類樹所組成的森林,它的分類樹就是把這個樣本放到每個樹裡去分類。

比如:在知乎上討論一個問題,知乎的寵物是狗還是狐?讓每個樹自己投票。在完成這個模型以後,我們取得了一個不錯的效果,達到了97%這樣一個非常高的準確率。

但是存在兩個問題。

  • 第一,它的召回率只有58%,這就意味著我們會錯過「壞人」,會把一些答非所問的回答放到線上去。這樣的話就會給我們的使用者帶來不好的體驗,所以召回率是我們很在意的東西。

  • 第二,這個模型會用到使用者的行為統計特徵,需要去看有多少使用者對它進行了點選回答,或者點選舉報的特徵。但如果用這個特徵的話,對一個新的回答做分類判斷是不是答非所問的時候,就必須放到線上觀察一段時間,看看線上對它的點選反對或者舉報。

這就出問題了,因為它上線了。如果真的是答非所問的話,看到這個回答的使用者的體驗其實就已經受到了傷害,這個是存在時間差的。

於是我們基於孿生模型的思路開發了一個模型,去提升網路結構的表達能力。同時對特徵進行選取時也做了很多仔細的考慮,以避免使用前面所說的使用者行為的統計特徵。

最後的結果是:我們在召回率上有了一個非常大的提升,從60%提升到80%。同時任何一個回答只要發出來,就能被快速分類,到底是不是答非所問。

當然它也有缺點,準確率下降了。但是在這個場景中,我們可以結合其他的業務策略來彌補這個差距。所以最後我們就上線新的模型,去替代老的模型。

我們的演算法團隊這個月在知乎專欄上發表了三篇文章,比較詳細地闡述了瓦力機器人在知乎的工作。大家感興趣的話可以上知乎專欄看一看。

我特別想跟大家同步一下,知乎在「陰陽怪氣」這個領域的識別的一些實踐,因為這是一個非常難也非常有意思的問題,雖然這個工作還沒有做完。

「反諷」識別演算法

陰陽怪氣就是反諷。

我們處理的思路,首先還是要基於深層語義理解,也就是語義分析工作,但這是不夠的。從我們的實踐來看,往往同一句話,如果是兩個好朋友之間發生的話,它有可能是插科打諢,打情罵俏。但如果是兩個陌生人之間,一定是有敵意或者不友善的。所以基於這樣的思考我們會從兩個方向去綜合判斷。

之所以要跟大家分享反諷這個問題,是因為它是情感分析領域的前沿問題,難度很大。因為反諷是用一種完全正面的詞語,去表達負面的意思,是一個很高階的修辭手法,機器人很難明白。像作為物理學家的謝爾頓,他的智商在全人類排名前10,但他常常聽不懂別人對他的諷刺。

在訓練中我們會把內容本身的特徵儘可能地融入到模型中去,包括像文字特徵、一些數值特徵、反諷詞表,以及一些表現符特徵等等。但是不會把使用者統計特徵放進去。

我們使用的網路拓撲模型使用的CNN和LSTM的結合。最關鍵的其實是最後一部分,我們在分類層是用知乎大量一致的語料產生標註資料,這就是我前面講的使用者行為。

640?wx_fmt=png

簡單地說,如果一個評論中有很多好的使用者,都進行了反對,我們可能就認為這是負向的。如果另外一個評論有很多使用者點了贊同,它可能就是正向的。

基於這個我們可以構建大量的標註資料,但這個方案我們現在仍處於開發過程中,有結果後我們會發布到知乎專欄上,大家也可以關注一下。

當然這個問題比較難,我們可能還要解決很多細節問題,需要比較久的時間。但是,我們相信知乎通過對龐大且高質量使用者行為資料的分析、學習,對語義和使用者關係這兩方面進行更深層次的理解和建模,從而有機會突破“識別反諷”這個一直困擾情感分析領域的前沿話題。這將對中文網際網路乃至世界網際網路的討論環境產生積極的促進作用。

以上是我關於AI演算法和人文價值的一些分享。一個開放包容的氛圍是很重要的,它是孕育文化上百花齊放狀態的非常重要的土壤。當然知乎作為一家技術公司,我們不僅僅把AI用在這個領域,而且已經廣泛應用在知乎的內容生產、流通、消費等環節。

知乎的AI目標:打造智慧社群

我們接下來的計劃是用AI,進行人機結合打造一個智慧社群。讓對更多有價值的問題被提出,讓最適合回答的使用者被邀請,讓更多分享見解經驗的慾望被激勵,讓更多專業認真的知識被推薦,讓更多人的好奇心被滿足,讓 1 億 4000 萬註冊使用者甚至數億網民連線到一起,這是知乎正在努力,並且初步成型的知乎智慧社群。

所以知乎長久以來所做的一切都是為了建立這種前所未有的連線,滿足彼此的需求,這也是知乎的初心和長久的願景。

我們相信在不遠的未來,來到知乎的每個人,都能快速看到他感興趣的人和內容,他的疑問可以被極速地送達到那群有意願和有能力回答的人,他也會快速地遇到那個讓他願意拍案的好問題,分享那些只有他最懂的資訊,收穫到最令他滿足和愉悅的認同,與他希望遇到的人產生有價值的交流、討論,甚至爭執。

這一切會是這個時代的思考和總結。我們會以前所未有的效率創造思維的連線,讓每個個體的思考和經驗,都能夠被極速地分享、篩選、總結,被轉化成為這個時代的知識。而知識的生產方式和迭代效率在這樣的連線之下會發生質的改變。這就是我們認為的智慧社群。

在經營這樣一個智慧社群的過程中,我們有很好的資料,問題也都很明確,主要的挑戰就在人上。

相比於要解決的問題的難度來說,我們團隊很不錯;但是相比於這些問題的數量,我們的人還是比較少的。所以我們希望有業界厲害的人加入我們,一起把知乎建立成一個具有人文價值的一個智慧社群。

謝謝。

作者系網易新聞·網易號“各有態度”簽約作者


加入社群

量子位AI社群16群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot6入群;


此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。


進群請加小助手微訊號qbitbot6,並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。(專業群稽核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


相關文章