張巨集江:開源時代如何解決人的思維孤島

思否編輯部發表於2020-12-29

圖片

原文標題:《張巨集江:開源時代如何解決人的思維孤島》
原文作者:智源社群

智源導讀:一直以來,“產學研”三者的邊界並沒有標準的範例供人們遵循。過去十年,隨著人工智慧技術的廣泛應用,數字時代為產業發展帶來的“無界”與“協同”,讓產業鏈的上下游協同發生了微妙演變。

而這當中,開源更是加速了AI演算法的普及,北京智源人工智慧研究院理事長張巨集江提到,開源時代面臨的最大挑戰,不光是資料孤島,而是資料孤島本質上反映出人的思維孤島。如何解決人的思維孤島,讓年輕一代的學者更加開放,更加適應開源,是一個長期的過程。

在過去一段時間,產、學、研三者的邊界開始逐漸模糊。當前,三者處於什麼樣的狀態?身處其中的個人應當如何定位自己?高校、企業、研發機構的觀念應有哪些調整?如何讓年輕一代的學者更加適應一個屬於開放開源的未來?

12月28日,在“未來科學大獎周2020”的“產學研論壇”中,由北京智源人工智慧研究院理事長張巨集江、奇績創壇創始人兼CEO陸奇,微眾銀行首席人工智慧官、香港科技大學講席教授楊強等人圍繞“數字時代的產學研”這一主題進行了深度對話,其中未來論壇理事、軟銀願景基金管理合夥人陳恂主持了對話。

智源社群從其對話中挑選出部分觀點,供讀者參考。更詳細的對話內容可以關注【智源社群】,後臺回覆【未來論壇】獲取。

01 過去十年,產學研的距離在不斷拉近

談及過去十年間產學研的現狀,北京智源人工智慧研究院理事長張巨集江表示隨著移動網際網路、AI的普及,其實產學研的距離在不斷拉近。

張巨集江:

在過去五年,我們看到開源的普及,看到越來越多像楊強教授這樣的學者從學術界來到產業界,同工程師、產品經理一起為使用者提供優秀的產品與服務。我們看到,許多企業隨著業務發展,一線工程師、產品經理,不再坐等技術成熟,而是主動跨向學術界尋求合作。

我們也看到企業工程師團隊中,有學術背景或學術經歷的人越來越多,他們從事完善演算法,與應用場景進一步結合的工作,並且越來越多地從事新演算法的研究和開發。談起學校,如今我們不再僅談“教學”,也談研究——學校與研究的距離也越來越近。較十年之前,如今“產學研”之間的聯絡更緊密了。

舉個美國的例子,OpenAI是一家企業,但它同時擁有大量傑出的研究員與工程師,軟體的、硬體的;DeepMind實際上是企業的一個業務部門,但同時又是一個出色的研究團隊。所以我們看到像GPT-3這樣大規模的預訓練模型,看到從AlphaGo到AlphaFold2在AI應用上一次又一次突破。所以我認為過去的十年,隨著移動網際網路的普及、隨著AI的普及,產學研的距離在拉近。

02 真正的學校是那些大廠

奇績創壇創始人兼CEO陸奇講到企業在產學研體系裡的特殊定位,大廠的經歷某種意義上是一種學位。

陸奇:

比如說我要找一個GPU強的人,會看你是英偉達大學畢業的;我要找一個演算法很強的,那是谷歌大學的;包括Microsoft(微軟),你在微軟做過三年到五年,某種意義上那是真正的學。因為大學裡面其實只是學了一個基本的技能。所以從實際的角度來講,基本上看你的real degree(真正學位)是某某大廠的一個學位。

講到學,我覺得學的邊界也在演變,從傳統的研究型大學,朝著另一個方向,在一個比較大的企業或者創業公司,給人才更完整的一個環境,去打磨他們數字化能力的一些核心技能。

產學研,在數字化大賽道里,其實它的邊界一直在,但我認為科學的發展和產業的發展,最終還是人類的兩大目標,追求知識,我們可以對知識、對宇宙、對人類社會了解的更多,同時把知識轉化成產業、轉化成人類財富。

03 在公司把學術概念發揚光大,變成商業模式

現微眾銀行首席人工智慧官、香港科技大學講席教授楊強在過去的三十年中一直在大學裡做遷移學習,直到最近,他才加入公司工作。

楊強:

我記得大概在90年代末我開始做遷移學習的時候,一個動力是因為我們當時是做傳統的人工智慧叫“經典規劃”,在這裡面最薄弱的一環就是資料,基本沒有資料或者就只有一兩個例子。

在公司裡面就能把遷移學習的概念真正地給發揚光大,從學術概念,轉變成商業模式。資料資源多的這些公司,比如OpenAI(人工智慧非營利組織)、谷歌,他們可以大量的收集、聚合資料,並且利用大量的計算資源來做預訓練模型,所以預訓練是第一步。第二步是各個業務端,可以想像成一個網路終端,他們可以聚焦在自己的業務上,然後拿預訓練模型遷移到他們各自的業務上。這樣社會的分工就更加明確、更加聚焦。那麼整個的商業模式就可以運作起來,通過雲端計算,這個能力可以釋放出來。

所以這個例子給我一個啟示,比方說我們花30年時間在研究一個大學裡面的一個小問題,然後到了一定階段,當所有的條件都聚合到一起的時候,就會有一個暴發期,這個暴發期就使得這個概念能夠散佈在各行各業,就是星星之火就可以燎原了。

04 好的軟體工程師想讓他的程式碼服務於人類所有的應用

陸奇認為,在產學研轉化的過程中,至關重要的是開源開放。

陸奇:

我建議大家看一下,任何一個創業公司或者一個大廠裡的產品團隊,其實程式碼寫的不多。大部分程式碼已經都有。如何保持開源開放的生產方式,同時把開源開放的方式更多的產業化,是我們大家面臨的一個重要挑戰也是機會。

因為開源開放,人的動機不是純商業化,一個真正好的軟體工程師、一個真正好的管理資料的技術團隊,他其實想讓他的程式碼和他的資料服務於人類所有的應用,他並不想讓他的資料或者他的程式碼侷限於某個企業或者侷限於某個區域性的應用場景。

但是這就需要,把工具的開發、社群的運營和商業化的機制,協調地融合在一起,這是我們共同面臨的挑戰。過去的案例可行的是一些成功的開源組織和成功的工具和社群,比如GitHub這樣的社群是我們非常關注的。

05 技術需要可信、可用

楊強提到,數字化產學研在20年前和現在相比,更加重視社會責任感。

楊強:

在過去我們認為技術就是純技術,研究就是純研究,科學家可以把自己關在一個小屋子裡算出一個結果發表,就完事。但是現在,做技術一定要帶有社會責任心,我們的技術是不是可信的?是不是能夠滿足社會大眾對隱私安全的保護?是不是能夠保證在多方協作的前提下,是不是保證公平的分配最終的利益?是不是透明的?是不是可解釋的模型?可信的觀念有很多解釋,但是它指出一點就是做研究的人同時要考慮社會責任。

第二,做的技術,我們過去往往發表,就不管了,後面靠攢引用,Citation高了,我們就認為是好的。但我覺得現在有一個變化,我們要看這個技術不僅僅是發表了,而且是可用的。

比如說金融行業,我們最近和央行做了一個反洗錢的POC,這個POC當時就發現每家銀行的洗錢樣本非常少,也就一兩例,如果沒有能力把眾多銀行連線起來,形成更多資料來源的集合,那麼是沒有辦法建一個自動反洗錢識別系統的。

06 開源加速了AI演算法的普及

張巨集江提到在AI演算法普及的過程中,開源的重大意義。他表示,80年代,掀起了一輪以神經網路為主的AI浪潮,今天這一波AI浪潮實際上也是以神經網路為基礎。80年代的那波浪潮很快退去,一個重要的原因就是資料不足。

張巨集江:

看人工智慧過去十年的發展,有一個學術界的資料庫——ImageNet,對演算法的發展起了非常重要的作用。

說起Hinton的深度學習演算法,2006年在《自然》雜誌上,當時他用他的演算法做“植物識別”。但直到2012年,他和他學生做的AlexNet,在ImageNet上做的比賽,以超過第二名16%的大幅度差距獲得第一名的時候,人們才意識到他這個演算法裡面一定有什麼跟別人不同的地方。

這個演算法本身的驗證實際很大程度上是由於資料集本身的存在,這是個開放型的資料集,它的資料每個人都能用,而且它的標註都是用Crowd-Sourcing(眾包)的方法來做的。如果沒有這麼一個大的開源資料庫,讓大家都可以在上面做實驗,我們今天在很多領域其實都走不快。

今天我們熟悉的兩大AI程式設計架構都是開源的,一是在學術研究領域常用的PyTorch,二是工業界慣用的TensorFlow。因其開源,社群成員能夠對兩個平臺作出持續貢獻與改進,AI演算法得以迅速發展和普及。

隨著網際網路、移動網際網路的發展,當大量資料可以使用時,我們在研究方法上也發生了很大改變。從思考公式與演算法,到近十年開始的Deployment Driven Research(以實踐為驅動的研究),每做出一個模型就立刻投入開源社群,社群成員再將這個模型部署到所要解決的問題空間。一些具體的問題,由此獲得快速反饋,產生新的資料,從而幫助這個模型的原作者在一個比自身團隊大得多的社群中不斷驗證自己的演算法,從而促進了演算法的飛速發展。

開源社群方面,不單要有開源演算法和開源資料,更關鍵的是要有一群人,他們的理念與開源的主旨一致——並非希望從區域性獲利,而是由長期為某個產業、某項研究,或者整個人類社會的進步所驅動。

這種文化、理念、思維的培養,在我們談的產學研、新資料時代非常重要,這恰恰是今日中國還相對落後的地方。無論大型的網際網路平臺公司還是小型初創企業,都已大量受惠於開源,我希望能看到今後中國的工程師、研究員、企業、政府機構、研究院,能夠真正地為開源社群、開源演算法、開源軟體、開源的硬體架構、開源的資料集做出應有的貢獻。

07 開源時代,如何解決人的思維孤島

張巨集江講到,開源時代面臨的最大挑戰,不光資料本身是孤島,而是資料孤島本質上反映出人的思維孤島。

張巨集江:

在數字化時代,許多人的思維、做事方式還停留在網際網路之前的時代。我們談到在大資料驅動、在Deployment Driven(實踐驅動)這種新的研究方法的時候,另一方面所碰到的困難是在大學和研究院,我們衡量晉升的標準依然是20年前非常傳統的標準,還是數文章、看引用。

這是一個很大的矛盾。我一個多月前給清華經管學院的所有青年教師作過一次報告,專門談到如何做有影響力的研究工作。大家其實都知道應該怎麼做,都知道應該更多和開源社群合作,更多用開源資料,更多用Deployment  Driven(實踐驅動)這種新的方法,但是這都需要大量工作,而且工作不是寫Paper,這個工作是要把演算法真正寫成Code,Code經過測試能夠真正的運營起來,能夠把程式碼開放出來,讓別人能夠重複。這些工作某種意義上,很多是Dirty Job(髒活累活)。

你做了很多這種工作,然後在開源社群去推廣這些工作,你幫別人來重複你的事業,這部分要花費大量精力,那也許我有這個精力可以多寫兩篇文章。這是在我看過去兩年碰到的一系列問題。未來我們還將面對這些難題,在挑戰中不斷探索,希望能夠逐漸改善。

論壇的最後,張巨集江提到,改變學者的動機或是改變環境是個長期的過程,不可一蹴而就。

張巨集江:

我看到一代一代年輕學者變得更加開放,更加適應於開源,適應於這種新的環境。另外,把研究作為一份職業還是把研究作為一個事業和愛好,在年輕一代裡面我們看到更多是作為自己的追求和自己的事業,而不是一種職業。

基於這一切改變,長期來看我們一定能夠看到好轉的趨勢。智源不僅把領軍學者聚到一起,更重要的,是我們把數量眾多的青年科學家聚到一起,圍繞他們開展更多活動,為他們提供更多機會——無論是資料、計算資源,還是研究基金。也可以說把他們聚在智源,因為在學校,他們每個人都非常強,但非常小的叢集,智源把他們凝聚成比較大的群體,這樣他們交流起來就會更容易。

大資料來源於超大規模的城市,以城市作為一個單元,作為中心,人口聚集本身就產生了大量應用場景,產生了大量應用場景所相關的資料。所以在大資料時代,在AI時代,產學研也會逐漸形成區域特色,隨著每個區域彼此的長項,擅長產業的聚集,相信我們也能看到產學研的不同聚集。

image.png

相關文章