離開 360 集團創辦碳矽智慧,是因為鄧亞峰相信,創新藥研發的正規化,將從專家+實驗驅動,變為智慧計算+自動化實驗+專家驅動,在未來十年甚至更久遠的時間裡,AI 和計算將成為整個生命科學領域發展的核心驅動力。在這裡他將更好地挑戰自我並創造價值。
21 世紀是生命科學的世紀。
要是你認識本科學生物的人,尤其是在本世紀之交那幾年參加高考的,他們會告訴你這句話有多麼諷刺。與同期學計算機或通訊的人相比,無論是搞科研還是找工作,別問,問就是沒前(錢)途。
但情況正在發生改變。
碳矽智慧創始人兼 CEO 鄧亞峰告訴機器之心,生命科學正處在新一輪爆發的前期,人工智慧技術與這個領域開始深度融合,展現出巨大的可能,對於一直渴望成就一番事業的他來說,眼下正是最好的時機。
兩個月前,鄧亞峰結束了他在 360 作為集團副總裁、人工智慧研究院院長兼搜尋事業部總經理的任職,為期不到三年,網路上關於他的搜尋結果還有不少停留在格靈深瞳 CTO 時期,而鄧亞峰自己則似乎更樂意從 2013 年加入百度 IDL(注:百度深度學習研究院,現百度研究院的前身)說起,強調他是最早一批投身深度學習的人。
從求學清華入門計算機視覺,到加入百度 IDL 再到格靈深瞳力挽狂瀾,鄧亞峰憑藉著對人工智慧尤其是深度學習的強大信念,在不斷挑戰自我的同時,敏銳地把握住了每一次技術和行業的發展,讓自己站得更高,想得更遠。如今吸引著他並且他也深信不疑的,是不遠的前方一個由 AI 驅動的生命科學時代。
第十一屆國際圖象圖形學學術會議(ICIG 2021),鄧亞峰代表 360 集團發表報告
藥物發現即將迎來正規化的轉變,鄧亞峰相信,AI 和計算將成為新的核心驅動力,在這種技術的代際更替程式中,新勢力完全有可能與行業巨擘並駕齊驅,共同推動領域發展。
碳矽智慧將作為 AI 基礎設施和服務提供商,提供針對新藥發現的一站式全流程設計平臺及相關服務。「我們希望與合作伙伴一起探索 AI 賦能新藥發現的邊界,共享新藥發現新正規化,期待在人工智慧、物理計算和自動化技術的驅動下,新藥發現領域取得十倍速的效率提升。」
預判、選擇與時機
回望職業生涯 20 年,幾段經歷,鄧亞峰每一步都踩在了對的點上。
2002 年考入清華電子工程系讀研究生,並憑興趣選擇了模式識別方向,尚不知曉十多年後這個方向會熱得發燙。在 2012 年以前,大家都是用傳統的機器學習技術解決領域問題,當時的他,總感覺前面有堵看不見的牆。鄧亞峰迴憶說,那時候團隊經過一年的努力,大概能讓識別率提升 3~5 個百分點,而且是在 70% 的水平上,距離落地仍有很大的距離。「你會發現努力一年,依然看不到真正落地的希望。」
2012 年,深度學習演算法在學術界展露了實力。但那時並非所有人都看好深度學習,這不難理解,試想現在有人告訴你科學家在小鼠——不,在與人類親緣關係最近的倭黑猩猩身上發現了某種基因,可以延緩衰老,你會依此對即將到來的人類抗衰老藥物抱有多大期待?
鄧亞峰調研後認為,深度學習擁有巨大的潛力,於是毅然加入當時剛成立的百度 IDL,國內最早專注於研究深度學習並將其定位為核心技術創新的機構,那時候的院長還是餘凱——沒錯,地平線的那個餘凱。在百度 IDL 的三年裡,鄧亞峰參與提出了第一個基於深度學習的端到端的一階段物體檢測框架 DenseBox,和團隊一起將那時候的「學術界人臉識別世界盃」——LFW 評測的準確率做到了第一,成績是接近極限的 99.77%,隨著影像分類、語義分割、人臉識別、物體檢測……很多以前覺得不太可能的任務被逐漸突破,他也度過了一段快樂而充實的技術時光。那時候刷榜很容易,但落地卻有些難。
2016 年 8 月,鄧亞峰加入格靈深瞳。這家 2013 年成立的公司今年 3 月在上海科創板作為第一家 AI 公司掛牌上市,但彼時正因前期戰略性的誤判在市場表現上陷入低谷。鄧亞峰加入後主要做了兩件事,完善技術團隊的組織架構,以及建立技術體系框架並攻堅深度學習技術。例如,為演算法團隊建立資料智慧和資料標註等支撐團隊,啟動深瞳大腦專案,讓資料的獲取、標註和管理,以及模型的訓練與部署自動化;成立基礎引擎團隊,最佳化人工智慧演算法在各種分散式異構平臺上的效能、部署和排程,更好地連通應用和演算法;對軟體團隊做了垂直領域劃分,使得各團隊能更專注於智慧安防、智慧銀行、智慧零售等業務。
經過調整以及團隊的努力,格靈深瞳的技術和產品有了顯著的提升。鄧亞峰本人也實現了從 CV 技術專家到技術管理者的蛻變,作為 CTO 帶領團隊將包括人臉識別、車輛結構化以及人體再識別等核心演算法,後來居上做到行業一流水平,不僅僅贏得了客戶,也贏得了生態合作伙伴華為、英特爾的尊敬。特別是在 2019 年,格靈深瞳在「工業界人臉識別世界盃」——美國標準化局舉辦的 FRVT 競賽中,取得了四項任務綜合成績排名世界第一的殊榮。而這背後,整個團隊的研發投入,特別是研發團隊人數,僅是行業頭部公司的十分之一。
2020 年 4 月,鄧亞峰加入 360 集團,一手接過顏水成離開後的 360 人工智慧研究院,另一手擔起 360 搜尋事業部的大梁。選擇加入 360 集團的原因與加入格靈深瞳一樣,鄧亞峰坦言,都是為了更好地提升自己,都是最需要他同時也是他最能有所施展的平臺。
此時的鄧亞峰管理著 400 人左右的團隊,一方面帶領人工智慧研究院在支撐公司內部業務AI 需求的同時進行 AI 前沿探索,另一方面管理著搜尋事業部,保障集團最重要的業績來源。360 有著非常廣闊的 AI 落地場景,從網際網路軟體到智慧硬體,有海量使用者和資料,近期大熱的多模態預訓練大模型,在 360 有最好的應用場景。他和團隊一起,提出一種新的中文圖文跨模態預訓練框架 R2D2 ,結合雙塔模型和單塔模型的優點,在 8 個評測資料集上都取得了最好成績,且顯著超越之前最好成績。這些模型與 2000 多萬優質訓練測試資料一起都已經開源,為中文大模型的研究及社群發展貢獻了一點力量。此外,在知識圖譜的權威競賽 OGB-WIKI 上,他的團隊曾兩次登頂。
在 360 的這幾年,鄧亞峰從計算機視覺領域成功擴充到了自然語言理解、機器人等領域,深度學習技術的發展,讓他越來越意識到 AI 的底層技術方法及在各個領域的演進是相通的。同時,在軟硬體協同及 SaaS 服務方面的經驗,以及在產業數字化等方向的探索和思考,進一步歷練了他業務規劃和判斷能力,也讓他習慣站在行業的高度洞悉技術趨勢和市場動向。這個時間點,他已經由一個技術管理者蛻變為一個創新業務負責人。
在外人看來,在 360,他一方面負責AI 研究院,一方面負責搜尋,既管最前沿的創新部門,又管非常核心的業務部門,一切都很完美。
我希望自己能做一件更有成就感,而且能對我個人的成長更有價值的一件事情。如果最初選擇留在百度,我可以不斷提升技術,不斷晉升,原來我所帶領團隊的小夥伴已經升到 T9、T10 了。做了 20 年人工智慧,我一直在追求把 AI 技術大規模落地,而且希望真正能給大家的生活帶來價值和改變。 此外,我內心也一直期待自己能創立一家我認同的公司,一個能發揮出每個人潛質和優勢,而且真正為社會創造價值的一個平臺。
發現 AI for Science 新機遇
做過智慧城市、智慧商業、智慧銀行這些計算機視覺相關的軟硬體產品,又做過網際網路、移動網際網路的搜尋、移動應用、影片推薦等產品,從商業角度看,鄧亞峰發現這個時間點新機會相對來說比較少。更重要的,對他個人來講,「價值感上會感覺沒有特別強」。
比較偶然的機會接觸到生命科學,尤其是新藥發現這個領域後,鄧亞峰說他天然地被吸引,覺得非常有興趣,這是一個提起來就非常有使命感的行業。看好 AI 賦能藥物研發有很多原因,最核心的還是他認為藥物研發領域迎來了研發正規化變革的機會點,在這樣的機會點躬身入局,對他而言是非常順理成章的事情。
鄧亞峰相信,創新藥研發的正規化,將從專家+實驗驅動的模式,變革為 AI 計算+自動化實驗+專家驅動的模式,在未來十年甚至更久的時間裡,AI 計算將成為生命科學領域發展的核心驅動力。作為 AI 從業者,最讓人激動的當然是找到一個對社會非常有價值,且以 AI 為核心驅動力的行業。
藥物研發當然需要領域知識,不僅僅涉及到藥學,還包括物理、化學、生物、醫學等,這絕對是一個非常跨學科的交叉領域,鄧亞峰總結說。但是,當運用領域知識把一些問題抽象之後,會發現和其他領域遇到的人工智慧任務並沒有本質不同。
與其他領域不同的是,這個領域的 AI 技術能力還處於較為初級的階段,還沒有被解決,這背後的原因,一方面是因為藥物研發領域的問題有獨特挑戰,另外一方面是因為太少真正具有 AI 建模能力的人進入這個領域。從最早期就親身經歷了深度學習技術的興起,並見證了深度學習在計算機視覺和自然語言理解領域的顛覆式發展之後,鄧亞峰對人工智慧於生命科學的改變堅信不已。
鄧亞峰迴憶道「這只是時間問題。2013 年時,除了親身見證的人外,很少有人相信深度學習,甚至包括一些行業大佬,人總是見到才會相信。」
對於藥物研發而言,確實需要有領域知識,除了計算之外,也包括非常多的複雜環節。但過去藥物研發領域失敗率高的重要原因,是人類專家難以完全掌握藥物研發過程中的所有知識,也難以完全消化利用所有的試驗資料,使得藥物研發充滿了偶然性。而人工智慧,有望理解和建模藥物研發領域的所有資料,融入人類知識,並與專家人機協作,顯著提高藥物研發的確定性。這裡面涉及到的大量模型,就如同量化交易領域一樣,最終會被既懂領域知識,更懂建模的團隊解決。
碳矽智慧的另一位創始人兼首席科學家是浙江大學藥學院的侯廷軍教授,擁有 20 多年藥物設計方法學和應用研究經驗。這是一隻擁有 20 年以上經驗的藥學專家和人工智慧專家領銜的團隊,他們希望將最先進的生命科學技術與人工智慧等資訊科學技術深度融合,利用人工智慧、物理計算,以及軟硬體自動化技術,三輪驅動,透過提高新藥研發領域生產資料、管理資料以及對資料進行 AI 建模的能力,將新藥研發的各個環節數字化和智慧化,形成乾溼試驗資料閉環,解決新藥研發難題。這個團隊過去在深度學習、多模態預訓練、知識圖譜、軟硬體自動化、高效能運算、物理計算、計算化學和藥學上的經驗,將會讓他們區別於其他團隊,為行業帶來不同價值。
碳矽智慧目前已建立了業內領先且完全擁有自主智慧財產權的一站式新藥發現平臺 DrugFlow,包括靶標發現、虛擬篩選、先導化合物最佳化、成藥性預測等模組,可以幫助藥化專家更高效、便捷地找到潛在成藥分子。
從市場的角度,中國的製藥行業與國外相比差距懸殊,新的政策導向下 Me-too 藥和仿製藥發展受限,藥企和生物製藥公司有更強的訴求去做差異化和創新藥物研發。
鄧亞峰強調說,作為新藥研發領域的 AI 基礎設施和服務提供商,碳矽智慧的戰略目標是與藥廠和生物醫藥公司合作,而非競爭。「相對傳統的CRO 模式,我們會在提供軟硬體基礎設施之上,與戰略合作伙伴一起針對重點管線進行合作研發,提供包括新靶點發現、成藥分子發現及最佳化等服務。我們也希望用更開放的姿態,與行業夥伴一起推動生命科學領域人工智慧技術的發展。」
正規化改變的力量
1944 年,物理學家薛定諤出版了生物學著作《生命是什麼?》(What Is Life? The Physical Aspect of the Living Cell),從物理學家的視角探討生物學問題。儘管當時的物理和化學無法回答「生命是什麼」這個問題,但薛定諤指出,這種無法回答是經過充分論證的,正是說明了需要用新的科學理論和科學工具去解釋生物系統。
如今,一個類似的機遇擺在我們面前。生命或許本質上是一種資訊系統,從計算的角度能夠被更好地理解。如果說數學是科學的語言,那麼 AI 則最適合用來描述生命。
藥物發現需要領域知識,但 AI 人在這裡擁有得天獨厚的優勢。在藥物發現領域,人工智慧的力量還沒有真正發揮出來,想想過去幾年計算機視覺、自然語言理解、自動駕駛等領域的鉅變,一切都不過才剛要開始。
鄧亞峰說:「新藥研發領域踏實做人工智慧的團隊其實非常少,真正懂藥又懂 AI 的團隊屈指可數。我們團隊希望能夠透過自己的努力,與整個行業生態一起,把中國新藥研發的能力向前推進一大步。也期待更多志同道合的朋友加入這個領域,無論從產業角度還是技術角度,這裡都是一片全新的藍海。」