人大:和清、北做不一樣的AI
前幾日,雷鋒網報導了 後,有讀者看到國內已成立的人工智慧學院列表中有「中國人民大學-高瓴人工智慧學院」,表示好奇人大成立人工智慧學院做什麼。雷鋒網在這篇文章中詳解「高瓴人工智慧學院」的「思」與「做」。
一千個讀者,就有一千個哈姆雷特。
一千所高校,也將有一千個不同特色的人工智慧學院/研究院。
中國人民大學,與清、北並稱三大超一流名校,清華理工,北大文理醫,人大社科。一直以來在人們的印象中,人大是社科的巨無霸,但理工卻幾無存在感。
然而,在今年年初(1月19日),人民大學宣佈成立了高瓴人工智慧學院,並做如下定位:
“高瓴人工智慧學院是學校下屬的二級學院,負責學校人工智慧相關學科的規劃與建設,開展本學科領域的人才培養和科學研究工作……充分發揮學校在人工智慧相關學科的已有優勢,建設世界一流的人工智慧學科,提升學校的國際影響力和競爭力。”
高瓴人工智慧學院的副院長張國富教授曾多次表示:“我們想和北面兩所學校(作者注:清、北)做不一樣的 AI。”
如何不一樣?人大有自己的考慮,我們可以先從科學方法正規化的變革說起。
(以下部分內容借鑑了高瓴人工智慧學院院長文繼榮教授11月19日的演講內容, 未經文繼榮院長本人確認,僅代表個人見解。)
一、y = f(x) :科學方法的變革
1、傳統方法
在以往的數百年中,無論是自然科學還是社會科學,思考其研究方法的核心本質,總可以歸結為如下公式:
所有研究都只是為了從紛繁複雜的世界,從多變的樣本當中尋找出隱藏在表象背後的客觀規律,一個不變的、穩定的規律。特別是在自然科學領域,我們總希望能夠將客觀規律表示成一個模型或方程。
這種方法,本質上是一種科學主義傳統或者理性主義傳統,我們希望能夠從直覺或少量樣本中透過歸納、演繹等方法得出這樣的模型、函式或方程。一旦掌握了這樣的模型/函式/方程,我們就可以拿著它來解釋各種各樣看起來比較多變的現象,去分析無常的世界中那些穩定不變的東西。
在人類發展歷史上,尤其是在科學程式上,我們一直在各個領域探尋儘可能簡單優美的模型。這個模型越簡單,越優美,越具有普適性,我們就會覺得這個模型越好。
這種方法在自然科學領域取得了很大的成功,也已經成為現代社會最為核心的推動力。可以說今天生活中的方方面面都是這種思想指導下的科技所帶來的成果。
我們找到了自然中這樣的一些穩定的、不變的、客觀的規律。
但我們也應當注意到,在過去這麼多年裡,當我們把這種科學方法應用在社會科學當中時,我們發現了很多困難。例如我們用公式來描述經濟規律、預測股市等,常常會出現預測之外的結果。
這說明,這種方法在社會科學中並不適用。
原因在於,社會科學是一個複雜的、非線性的、(超)多變數的系統,透過小資料/直覺,往往難以揭示這樣系統背後真正的不變規律。
更重要的則在於,自然科學可以透過大量的實驗來收集大量資料,而社會科學則很難透過重複實驗來獲取資料,因此存在樣本資料稀少的情況。這也給人們留下了“社會科學並不科學”的印象。
2、大資料方法/經驗方法
大資料時代的出現,給我們提供一個前所未有的機會。我們突然有機會收集很多資料,尤其是在一些以前很難做實驗的場合來收集資料。我們發現當我們收集資料越來越多的時候,我們甚至可以不用去找資料背後隱藏的模型。
大資料提供了這樣一種方法,可以直接從輸入到輸出的對映,相當於是純經驗的方法。我們知道如果經驗足夠多,我們可以不用去尋找模型,繞開模型,直接用經驗解決問題。這是用大資料解決辦法的本質。
這種方法在很多領域已經取得成功,但是這個方法有一個問題,即,很多時候資料不夠多。很多情況下,你會發現你的資料不能覆蓋到所有的情況。
3、新正規化:大資料+智慧
人工智慧,是在大資料背景下出現的新方法:儘管問題很複雜,我還是能夠找到資料背後的模型,從而把握事物的不變性和規律性。它的方法與傳統方法的不同,它是從“海量的樣本資料”中尋求“複雜模型”。
以前自然科學的方法是從少量的資料、少量的實驗樣本里面尋求簡單的模型,它可以用在自然科學方面,但是社會科學不可以,因為問題太複雜、變數太多。
但是現在有了基於大資料的人工智慧方法,我們會發現可以從海量的資料裡面尋求複雜的模型。
一個系統可能有幾千萬、幾十億的變數,背後可能是非常複雜的非線性問題,沒有關係,我們仍然可以構建出來這樣的模型。
深度學習,正是這種方法的代表,它能夠從海量資料中非常高效地學習出複雜模型。事實上,深度學習不僅僅只是去做人臉識別、自動駕駛,它對社會科學同樣有效,將之應用於社會科學,將產生顛覆性的革命。因為它給我們提供了一種有效的研究複雜問題的新方法。
這種新的科學正規化就是:大資料+人工智慧的研究正規化。
二、新正規化初探
深度神經網路,可以理解為一個非常複雜的函式 f。在計算機視覺中,我們用它來表徵建模人看見一個物體時發生了什麼,現在我們在這方面已經取得了非常好的成績,在特定領域已經能夠超過人類的表現。
那麼將這種方法應用到社會科學中會有什麼不一樣的呢?
文繼榮教授舉了幾個例子:
1、+經濟學
文繼榮介紹,他們從30萬條新聞中,將產業轉型的資料抽取出來。其中的 x 就是這 30萬的新聞資料,而透過建立模型,繪製除了如圖所示的產業轉移結果 y = 產業轉移數(時間,省份1,省份2)。把其中低頻的資料去掉後,得到右邊的圖。
從中便可以很容易地看出,中國的產業轉移是以北、上、廣為中心;而三地轉移情況卻各不相同,北京往周邊轉,上海往中東部轉,而廣州則仍然轉在本地。透過這種方式,便可以將原有的資料變得形象化、視覺化,從而揭示出原來不可能發現的經濟規律。
2、+社會學
文繼榮繼續舉了與社科院合作的一個成果,研究意識形態問題。他們根據 1.7億使用者、27億的微博資料(其中有幾百萬的大V),發現很多有意思的現象。例如他們從微博資料中發現事實上中國近年來並沒有嚴重的民粹主義,且呈現民粹主義呈現多元化,民眾更關心國內事務和政策。
3、+ 政治學
第三個例子是文繼榮在微軟期間的工作。2012年文繼榮透過公開的網路資料來分析奧巴馬和羅姆尼的民意基礎,從而預測美國總統大選,結果相當準確。文繼榮打趣說,這個模型放到現在再去預測已經不準了,“因為美國水軍已經成長起來了”。
4、+ 歷史學
注:右側的災害分佈圖來源於網路,此處僅為示例
歷史,也同樣可以做。我們可以把史料資料化,透過各種方式來建模,比如說災害(水災、旱災、蝗災)在歷朝歷代是怎麼發生的,產生什麼樣的影響,跟人口出生、GDP、戰爭、瘟疫等等有什麼關係等。我們可以把這些問題轉化成資料分析的問題來做,現在的技術已經可以做到,但距離真正的資料化歷史還很遙遠,這涉及到如何去構建一個龐大的技術平臺。
5、+法學
法律方面,文繼榮有頗多成果。舉例來講,如上圖,他們利用幾千萬法律文字判決書做了分析系統,輸入“黑社會”,就會得出如上圖右側的分佈圖,其中顏色越深表示相應的案件越多。從中可以看出江西很特別,而東三省和大家想象的似乎不太一樣。
以上僅為部分社會學科與新正規化科學方法的結合,且只是初步。實際上目前已經有很多人在作者相似的事情,很多社會科學研究也正受益於大資料 + 人工智慧。
但目前這種方法在與各個學科結合的過程中仍然存在著一系列的問題。例如往往沒有直接資料,或者資料是以非結構化的文字形式而存在的。
此外,目前懂得使用這種技術的計算機專家並不懂得相應的社會科學,而反過來其他的領域專家往往又並不擅長對大資料和人工智慧的利用。抽取什麼資料來分析?分析什麼問題?怎麼分析?領域專家應當與計算機專家進行深度合作。
人大最不缺的就是社科領域專家。
這正是人大的優勢所在,也正是人大高瓴人工智慧學院的優勢所在。
三、智慧社會治理十大前沿問題
正如前面提到,高瓴人工智慧學院若想“充分發揮學校在人工智慧相關學科的已有優勢”,就必須與其他學院緊密協作。
在本月19日,在中國科協的支援下,由中國人民大學主辦了“首屆智慧社會治理論壇”。
這次論壇的參與方包括中國科協-中國人民大學智慧社會治理研究中心、中國人民大學國家發展與戰略研究院、中國人民大學文化科技園、民盟中國人民大學委員會、高瓴人工智慧學院、經濟學院、法學院、社會與人口學院、新聞學院、勞動人事學院、未來法治研究院、新聞與社會發展研究中心等。
這次會議,事實上可以看做是人大高瓴人工智慧學院與各個兄弟學院正式“結盟”的一次標誌。
文繼榮作為高瓴人工智慧學院院長,在會議上宣佈了十個“智慧社會治理的前沿問題”,作為他們在未來與兄弟學院共同合作的靶標。分別為:
第一個課題:智慧社會治理大資料平臺建設(人工智慧學院)。
第二個課題:智慧社會治理的演算法與機制設計(人工智慧學院)。
第三個課題:是智慧社會演算法和資料的法律規制(法學院)。
第四個課題:智慧社會網際網路平臺的法律責任(法學院)。
第五個課題:智慧社會的經濟規制和競爭政策(經濟學院)。
第六個課題:智慧社會數字經濟與中國經濟轉型(經濟學院)。
第七個課題:智慧社會公共理性與輿論治理(新聞學院)。
第八個課題:智慧社會公共倫理建設與規範(新聞學院)。
第九個課題,智慧社會網際網路與人際關係重塑(社會與人口學院)。
第十個課題:智慧社會秩序與智慧化治理(社會與人口學院)。
從這個列表中,我們可以看出人大在人工智慧的發展定位上,與清、北完全不同。人大更加強調人工智慧技術與各個社會科學之間的結合,透過新的技術、新的研究正規化來改變傳統的社會科學。在這個過程中,人工智慧學院即是中心,又是邊緣。
或許我們可以認為,人大把 AI 技術視作為社會科學的「新數學」。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2665838/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 都說電商難做?用小程式實現不一樣的電商夢?
- JDK的版本不一樣,對xml的解析器也不一樣.JDKXML
- Defect和Bug有什麼不一樣? -Nikita
- javascript模擬重力感應彈跳,做個不一樣的登陸埠JavaScript
- Yann LeCun:未來的AI晶片應該這樣做Yann LeCunAI晶片
- 因為AI,Blued成為垂直社交產品裡“不一樣的煙火”AI
- request和response物件作用範圍不一樣麼?物件
- JDK1.8 不一樣的HashMapJDKHashMap
- 不一樣的角度理解Vue元件Vue元件
- 2020清北學堂秋季營感想——HoarfrostROS
- 不一樣的釋出會不一般的品高雲
- 給記憶體加上AI?三星是這樣做的記憶體AI
- 不一樣的圖片載入方式
- 不一樣的django2.0筆記Django筆記
- 不一樣的Flink入門教程
- 不一樣的HTTP快取體驗HTTP快取
- iOS 10 來點不一樣的推送iOS
- 《鴻圖之下》:如何做“不一樣的國風國戰”視覺包裝設計視覺
- CSS 樣式清單整理CSS
- 我兒時的“清北夢”,竟然在這款遊戲裡實現了!遊戲
- 如果ChannelHandler之間處理資料格式不一樣,可以怎麼做轉換?
- 【C++】C++ new和malloc到底哪裡不一樣C++
- 產業發展和產業服務有什麼不一樣產業
- str跟unicode不一樣Unicode
- 女生轉行IT和男生要考慮的問題有哪些不一樣?
- HTML中input type="text"和type="password" 顯示的長度不一樣HTML
- linux的重啟方式為啥跟win和BSD不一樣(轉)Linux
- win下面不一樣的git bush體驗Git
- 不一樣的 SQL Server 日期格式化SQLServer
- 不一樣的命令模式(設計模式十五)設計模式
- 不一樣的 Android 堆疊抓取方案Android
- 做一個php登陸頁面,用pc登陸和用手機登陸彈出來的登陸頁面不一樣。PHP
- 小程式“登月”:百度和微信越來越不一樣
- 根證書和中間證書有什麼不一樣
- SAP和其他ERP軟體有什麼不一樣嗎?
- 程式設計師和工程師有什麼不一樣?程式設計師工程師
- zt_一樣的delete語句,不一樣的執行時間delete
- 女生轉行IT和男生要考慮的問題有什麼不一樣?