金山AI團隊:從理論突破到應用場景落地

AIBigbull2050發表於2020-10-09
2020-10-04 20:23:17

金山AI團隊:從理論突破到應用場景落地

作者 | 陳彩嫻

一提起雷軍,絕大多數人首先會想到小米,對金山軟體卻知之甚少。雷軍作為金山軟體董事長,曾帶領金山度過最艱難時期。

1996年,金山軟體遭遇前有微軟、後有盜版的雙重打擊跌入谷底:1995年,微軟進入中國市場,Windows 95與OFFICE系列搶佔了WPS大部分市場份額;與此同時,一張盜版光碟,640兆囊括了市面上幾乎所有主流軟體,包括金山軟體的產品。面對困局,金山何去何從?

雷軍苦苦思考六個月,最後決定做WPS的同時,在遊戲、工具軟體領域發力,開始游擊戰、以戰養戰。1997年,金山推出《劍俠情緣I》、《WPS97》、《金山詞霸》等等功能強大的產品,在遊戲、工具軟體與字處理系統領域成功製造了3個市場熱點,死裡逃生。

金山AI團隊:從理論突破到應用場景落地

(WPS97釋出,雷軍、求伯君演講)

回憶這段往事,雷軍曾歸納,自己最可貴的創業品質有兩點:一是目標遠大,二是創業激情。

除此之外,雷軍系的成功還歸因於另一個重要的品質:聚焦。

這三個品質不僅續寫著雷軍本人的傳奇創業故事,也在繼續引領著他的各派團隊創造輝煌的篇章,包括今年5月在納斯達克上市的金山雲,也包括一直低調行事的金山人工智慧事業部。

雷軍高度重視人工智慧的發展,2017年親自指導成立了金山人工智慧事業部。這所實驗室隱藏在海淀區小米科技園,集結一眾頂尖技術人才,以認知AI為核心,聚焦機器翻譯與閱讀理解。成立不過三年左右,便已在多個國際大賽中斬獲佳績。

2020年9月6日,金山集團AI Lab的SpiderNet模型在由卡內基梅隆大學、史丹佛大學和蒙特利爾大學聯合發起的多步推理閱讀理解評測HotpotQA中榮登榜首,結束了長達一年的由美國科技公司包括微軟、谷歌等在內的霸榜局面。

金山AI團隊究竟有何不為人知的神力?

1 HotpotQA殺出一匹黑馬

HotpotQA,又稱“火鍋問答”,是2018年由三名愛吃火鍋的中國學生髮布的一個多步推理的閱讀理解資料集。相較於SQuAD的任務,HotpotQA更考察關聯判斷能力,需要模型對給定多篇文章的內容進行深度理解,根據佐證篇章中所敘述事物的邏輯關係構建多步推理鏈,得到一個知識,然後通過問答的形式展示出來。

金山AI團隊:從理論突破到應用場景落地

(HotpotQA宣傳圖)

毫無疑問,像 SQuAD 這樣的大規模問答資料集對利用機器閱讀大量文字並回答問題取得了諸多進展。但由於資料集上的缺陷,用這些資料集訓練出來的模型並未學習到非常複雜的語言理解能力,這也正是HotpotQA希望改善的地方。

為此,HotpotQA調整了之前資料集的構建方式,除了必須使用多步推理來回答外,問題本身不會受限於任何預設的知識圖譜,對於每一個問題還收集了回答它所需要的更細粒度的支援推理線索 (supporting fact),並且迫使模型在回答問題的同時給出它基於哪些事實進行的推理,不像以前的模型只給出一個答案,知其然而不知其所以然。

而此前在SQuAD上競相投入的巨頭們,也將HotpotQA視為展示自己實力的新競技場。與一群在此前從SQuAD就“相愛相殺”的巨頭不同的是,金山AI Lab並未參加過SQuAD競賽的角逐,金山此次登頂堪稱黑馬。

2 金山奪冠技術SpiderNet分析

本次金山人工智慧事業部的SpiderNet模型參加的是干擾項賽道(Distractor Setting),每個問題提供10個備選篇章。該賽道更側重於考察模型的文字推理能力,同時也是參賽隊伍最多的賽道。

SpiderNet模型採用的是深度神經網路技術,基於預訓練語言模型做了改進,更注重節點與節點之間的關聯與資訊共享,就像一張蜘蛛網一樣,專門針對文件內容進行深度理解與多步推理。

為了證明模型確實利用了原文中的相關證據進行推理並提升模型的可解釋性,HotpotQA不僅要求模型給出最終答案,還要求模型給出推理所用到的佐證證據(Supporting Facts)。在評價指標上,HotpotQA評測會根據答案和佐證證據的精確匹配率(EM)和模糊匹配率(F1)求得最終的聯合精確匹配率和模糊匹配率(Joint EM / F1)。

在全部6項測評中,金山SpiderNet模型有5項指標重新整理紀錄排名第一,1項指標排名第二,全面超越之前的冠軍微軟。其中,綜合模糊準確率(Joint F1)更是達到74.88。

金山AI團隊:從理論突破到應用場景落地

HotpotQA挑戰賽(干擾項賽道)最新榜單(截至2020年9月17日)

3 在AI技術落地的最後一公里“後來居上”

人工智慧從誕生起便幾經起伏,尤其近十餘年來,深度學習已大規模應用於PC網際網路和移動網際網路,在搜尋、電商、社交等領域已經有諸多成功應用,從實驗室走出的AI技術,成為產業升級的最佳推手;然而,人工智慧技術落地的“最後一公里”仍然是一個難題。

“以認知為核心的人工智慧是未來社會所需要的,是能夠推動社會往前進步的,也是未來發展的方向。”談到以認知為核心的人工智慧技術的未來應用,金山人工智慧事業部負責人李長亮博士滿懷信心。他表示,金山集團在AI上的投入非常堅定,公司給了人工智慧事業部極大的信任和資源支援。

參加HotpotQA比賽的單位不僅有史丹佛大學、華盛頓大學、卡內基梅隆大學、清華大學、北京大學等知名高校,還有來自微軟、IBM、阿里達摩院、京東等企業研究機構。同樣是關注認知智慧技術,每個企業也會有著不同方向的應用。

在李博士看來,以認知為核心的人工智慧技術將迎來前所未有的歷史發展機遇。像感知智慧時代出現的專注於計算機視覺的“AI四小龍”(商湯、曠視、雲從、依圖)一樣,認知智慧時代也將會出現一批優秀的企業,將人工智慧技術落地惠及社會。

相對於早就涉足認知智慧技術的其他巨頭,金山算是後來者。但AI賦能場景之繁雜、細分市場需求之細攏,前浪雖強,也難覆蓋所有行業;AI技術發展日新月異,後來者與先行者實際是在同一起跑線上。

專注於某一細分領域,正是“後來居上”的祕訣。

“金山人工智慧事業部成立三年以來,我們一直在堅持以認知為核心的人工智慧研究,非常聚焦。”據李博士介紹,自成立以來,金山AI團隊便聚焦在機器翻譯、知識問答與文件智慧這三個方向,目前已開發出AIDA翻譯引擎、AIDA知識引擎以及AIDA文件智慧處理系統。

金山AI團隊:從理論突破到應用場景落地

除申請發明專利100餘項、在ACM等國際頂級期刊會議上發表論文數十餘篇,金山AI 團隊的NLP研究已在多個國際大賽中斬獲佳績:

2018年,首次參加創新工場AI Challenger 2018中英翻譯競賽,憑藉對層次注意力機制、高斯搜尋等獨特演算法的創新,在「英中文字機器翻譯」賽道上以客觀成績領先於其他對手3個BLEU值、答辯成績超過其他隊伍30分的極大優勢在全球800支隊伍中脫穎而出,一舉奪冠;2019年,出戰全球學術界公認的頂級機器翻譯比賽——WMT( Workshop on Machine Translation)英中翻譯競賽,憑藉神經機器翻譯(NMT)模型,擊敗全球50多支隊伍(包括Facebook、微軟、百度、劍橋大學等),獲得英譯中賽道人工評測冠軍;同年,金山AI團隊還登上MS COCO Image Captioning榜首,並獲得了IEEE ISI World Cup大資料競賽冠軍。這些成績象徵著他們在自然語言理解上不斷在努力和突破。

金山集團人工智慧事業部的成員是一群理想青年,以“構建以認知為核心的人工智慧服務”為目標。團隊彙集了一大批國內外高校的優秀人才,他們大多畢業於清華、北大、中科院和劍橋、加州大學等國內外名校,有著紮實的基本功和對未來美好的憧憬(此處彩蛋:偏好NLP與數學專業的同學~)。

目前,金山AI團隊在機器翻譯模組已積累了十餘種語言的雙向翻譯技術,包括6種聯合國語言和數種我國少數民族語言(蒙語、藏語、維吾爾語等),覆蓋了文學、軍事、政治、財經、醫療、IT、機械等16個領域。除了對世界主流語言的研究,之所以增加對少數民語言的研究,李博士解釋是希望為促進民族交流貢獻一份力量。

這份責任心不僅體現在對社會的支援,還體現在對使用者資料隱私的重視與保護。依託金山30年的文件處理經驗,金山AI團隊在NLP研究上的優勢無疑得天獨厚。

資料隱私令很多使用者擔憂。李博士表達了保護資料安全的明確的態度:“凡是涉及到使用者隱私的資料,無論獲取成本多低,我們絕對不碰。”在他看來,這不僅是法律的底線,也是做研究的底線。不僅如此,李博士還提到,金山內部設有專門的資料管理團隊,通過技術和制度雙保險來保證資料安全問題。

2018年,BERT語言模型出來之後,機器已經能夠基於較好的文字理解去解決簡單的問題。2020年,GPT-3釋出,又在NLP領域掀起一股小高潮。但眾所周知,訓練一個語言模型對算力、語料等條件的要求很高,成本也很大。如何“高價效比”地實現AI技術的最高價值?金山AI團隊選擇了一條“接地氣”的道路:“我們現在也是基於預訓練語言模型在開發產品,但我們沒有去盲目比拼預訓練語言模型,而更多是基於已有成果進行創新,與場景相結合,解決場景裡的任務與需求。”

4 SpiderNet模型有什麼用途?

此次奪冠的SpiderNet模型可以基於對大量文件的閱讀理解和深度挖掘來獲取知識,滿足使用者在認知方面的需求。

“假如給AI一本歷史書,然後提問:中華人民共和國是哪一年成立的?這種答案從技術角度來講比較容易獲取。但如果提問:中華人民共和國在成立過程中克服了哪些困難?AI在回答問題之前,便需要深入理解大量文件,並進行去推理。這就考察更深層次的智慧技術。”李博士介紹道。

SpiderNet模型背後體現的是金山AI團隊在機器閱讀理解上所取得的突破。目前主要包括四方面的應用:合同管理、簡歷管理、智慧問答、知識圖譜一站式解決方案。

1、合同管理

相信每個公司的行政人員都曾為合同的收錄與管理髮愁。如果是人工處理,則需要: 第一步,提取合同上的關鍵資訊,比如甲乙方的身份、合同金額等。這個過程對技術要求不高,但耗時耗力。第二步,對合同進行管理,方便查詢。在查詢某份合同時,合同管理者往往需要憑藉有限的人腦記憶,從成千上萬份合同群中挨個開啟、檢查。這個過程同樣耗時耗力。

而金山AI團隊閱讀理解技術可以將合同內的關鍵資訊進行結構化提取和管理,並支援一鍵查詢結果,做到事半功倍。

2、簡歷管理

簡歷管理需求源於金山集團每年秋招收到的海量簡歷。面對上萬份五花八門的簡歷,HR需要在短時間內進行歸類整理,提取資訊,壓力很大。因此,金山AI 團隊開發了智慧簡歷管理系統,自動提取簡歷的重要資訊,並對簡歷內容進行結構化歸類和管理。。

簡歷沒有統一規範,求職者個人經歷又不盡相同,所以每份簡歷迥然相異。個人基本資訊(畢業院校、出生年月等)提取較簡單,但工作與專案經歷往往描述不一,這給文件分析增加了難度。HR若想從投遞者的描述內容中分析候選人的水平、特長等,就需用到自然語言處理(尤其是認知)技術。而應用閱讀理解模型,對簡歷進行深度理解與分析,可以方便HR查詢所需資訊,減輕HR的工作量。

3、垂直領域智慧問答

談及如今的資訊氾濫現象,李博士認為:“我們一方面被海量資訊‘淹死’,一方面又因為無法找到有用資訊而‘餓死”。

搜尋引擎在很多情況下並不能第一時間滿足人的知識獲取需求。李博士表示,目前網際網路上只有少部分資訊可以凝練成真正有用的知識。當你想在網上獲取某種知識時,不僅查詢費力,查到的結果也無法保證可信度。

而金山AI 團隊的AIDA知識問答引擎就致力於解決這個痛點。輸入問題,一鍵生成問題的高可信答案。

就目前的技術而言,收集世上所有知識來建立一個通用的知識問答系統是不可能的,因此,李博士及其團隊決定,先聚焦在某個特定領域來研究知識問答。目前,AIDA知識問答引擎主要圍繞政經領域的智慧文件挖掘和知識問答。

4、知識圖譜一站式解決方案

IDC釋出的《2025 年中國將擁有全球最大的資料圈》中提到:全球資料領域(建立、捕獲、複製和使用的數字資料)將從2018年的約33 ZB增長到2025年的175 ZB(其中1ZB等於1萬億GB)。如此龐大的資料量,對於組織與機構來講,如不能實現有效治理與知識運用,將會成為一場資訊爆炸的災難。

資訊爆炸的時代特徵加之認知技術的不斷髮展,李博士提出了“資料熵減,知識巨集加”的資料治理與知識運用願景,並最終帶領團隊基於資料治理、知識構建、知識運用三個維度開發出了AIDA知識圖譜一站式解決方案。

該套解決方案聚焦於資料治理、知識價值挖掘、知識應用三個維度;具備知識建模、知識抽取、知識儲存、實時更新、知識應用的一站式技術服務能力。AIDA巨集識知識建模視覺化系統,可實現一鍵自動建模,支援任意領域的知識圖譜節點、關係、屬性的定義;AIDA巨集圖圖譜構建視覺化系統,可實現基於結構化資料與非結構化資料的知識圖譜初始化構建;AIDA巨集聆知識實時更新系統,支援基於結構化、非結構化資料的知識自更新,確保知識圖譜的實時性,大大降低人工成本的支出;AIDA巨集知知識應用解決方案,支援智慧問答、智慧搜尋、知識庫建設、循證輔助決策等多維度知識應用,支援企業定製化開發,同時具備良好的自適應能力,領域遷移成本極低。

5 展望未來

今年5月金山雲成功上市時,各界再次將目光投向雷軍系的“游擊戰”商業戰略。

面對國內其他大廠如阿里雲、騰訊雲、百度雲甚至華為雲的激烈競爭與較勁,雷軍曾公開表態:“我們的態度很低,大的巨頭吃肉我們喝湯,我們甘願當小弟。只要3-5家裡面有我們,我們就一定能成功。”

同樣的“低姿勢、高聚焦”態度,也體現在不卑不亢的金山AI團隊上。

儘管金山人工智慧事業部在多個國際大賽中連連奪冠,但一直處事低調,專注於以認知為核心的人工智慧研究,到默默嘗試場景落地。

在如“神仙打架”般的AI角逐場上,“愣頭青”一樣從0開始鋪墊的長線戰略也許並不是明智的決定。面對各方拉架勢力,站在對的巨人肩膀上,精準定位、結合實際、謀求技術應用,才是後AI時代的發展真理。

而金山AI團隊的研究與努力,便一直在踐行這一理念。

有遠大目標,保持研究的熱情,聚焦在特定的領域,相信在不久的將來,這個團隊將給我們帶來新的喜訊!




https://www.toutiao.com/i6879739592749253127/



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2725718/,如需轉載,請註明出處,否則將追究法律責任。

相關文章