科學的演變:從笛卡爾到生成式人工智慧

Baihai_IDP發表於2023-04-10

編者按:本文主要介紹了科學的演變歷史,從笛卡爾到生成式人工智慧。文章探討了數學在驗證科學原理中的作用,並介紹了新機器學習工具如何驗證新的科學。

文中提到,將生成式人工智慧與Excel或iPhone進行比較是低估了這一新技術的潛在影響。生成型人工智慧的效果很可能相當於電學(electricity)或夏農的資訊理論(Shannon’s Information Theory)。

Generative AI will be a Superpower!

作者 | Robert Hacker

編譯 | 嶽揚

認為科學意味著可觀察和可重複的實驗的觀點,始於17世紀的笛卡爾,目前這種觀點在某種程度上已經結束了。

相比之下,全球共識(Global understanding) 是基於由知識基礎設施(knowledge infrastructure) 支援的計算模型(computational models)

——[英] 尼古拉斯·米爾佐夫《如何觀看世界》

阿拉伯數字使得數字能夠很容易地被操作,這就導致數學能夠作為驗證科學的工具使用。 事實上,科學史也可以說就是新數學(new mathematics)驗證科學中新的基本原理的歷史。如今我們有一套新的“數學”工具,即過去五年中人工智慧(AI)和機器學習(ML)的成果。這種新的機器學習(ML)真的不是僅僅關於生成文字或藝術作品,而是關於在一個比我們以前探索過的更基本的水平上驗證新的科學。寫此篇文章的目的就是為了談論新的機器學習(ML)工具驗證新的科學這一話題。

現代科學始於牛頓和笛卡爾的研究成果。牛頓讓我們對物理學最初有了一個準確的瞭解,他也被認為是發展微積分的功臣。這種物理科學和數學的結合至今仍在影響著研究,特別是在工程和物理學中應用偏微分方程的多變數問題。 笛卡爾因使用代數來解釋幾何學而備受讚譽,一個幾何形狀可以透過一系列的方程(代數)來解釋,其中可以用座標定位一個點,點決定線,線決定平面和形狀。這種代數方法支援了笛卡爾的科學觀點——即認為科學是從宏觀到微觀層面對有形事物的自上而下的檢查,關注物質、結構和線性、確定性的因果關係。不出所料,笛卡爾除了研究數學和科學之外,還是一位經驗主義哲學家(empiricist philosopher)。他的“自然”哲學在接下來的兩百年裡一直影響著科學,直到今天。

科學的下一個重大進展是量子理論。量子物理學的大部分基礎是建立在新的數學上。首先,路德維希·玻爾茲曼(Ludwig Boltzmann)給我們提供了統計力學,將機率和不確定性引入物理科學的研究中。麥克斯韋、龐加萊、海森堡、薛定諤、玻爾、普朗克和愛因斯坦都在玻爾茲曼的工作基礎上使用數學。讓我們產生對世界的新理解,當然這個理解建立在以機率方式執行的亞原子、不可見粒子上。我們不可能離笛卡爾的自然哲學有多遠。科學現在專注於不可見的東西。幸運的是,數學和科學的下一個突破,即混沌理論(Chaos Theory) ,幫助我們將量子物理學的不確定性與我們每天看到的自然世界聯絡起來。

1972年,麻省理工學院教授愛德華·洛倫茲(Edward Lorenz)提出了確定性混沌的概念。IBM的研究員Benoît Mandelbrot推進了Lorenz的工作,建立了“自然界中模式形成的數學基礎(a mathematical basis of pattern formation in nature)”[1],並證明了確定性的、對初始條件敏感的非線性系統(SDIC)可以在計算機上建模。曼德爾布羅特(Mandelbrot)不僅解釋了自然科學中以前幾乎不為人所知的一部分,而且他引入了 “分形(fractals)” 的概念來解釋在整個自然界中不斷重複的模式。隨著這些模式的記錄,數學變得很容易,並且計算機化極大地促進了對氣象學、地質學和生物學等領域的混沌現象建模的進一步研究。無論笛卡爾的形而上學和認識論在量子物理學之後還留下了什麼,混沌理論展示了對自然模式的新理解,展示了數學去解釋以前無法解釋的科學的另一種方式。混沌理論也證明了一個或許更重要的觀點,科學可以透過應用計算機建模來尋找系統中的模式來理解。科學對系統的這種關注後來被應用到另一類系統——複雜性科學。

1984年,諾貝爾物理學獎得主默裡·蓋爾曼(Murray Gell-Mann)與一批傑出的科學家和學者一起成立了聖塔菲研究所(Santa Fe Institute)來探索複雜系統(complex systems)。蓋爾曼解釋了複雜性,“我們應該尋找的是如今出現的、高度跨學科的偉大綜合科學”蓋爾曼說。[2]其中一些已經走上了成功的道路,如:分子生物學、非線性科學、認知科學。但他說,肯定還有其他新興的科學,建立這個新的研究所的目的就是尋找它們。與混沌系統(chaotic systems)相比,複雜系統(complex systems)不是確定性(deterministic)的,如下圖所示。確定性系統表現出“獨特的演化(unique evolution)”,即“模型的給定狀態總是跟隨著相同的狀態轉換歷史(a given state of a model is always followed by the same history of state transitions)”。[3]

圖片

非線性(nonlinear) ”的特徵,即“系統不需要隨著變數的變化而成比例地變化”[4],為從數學上捕捉所有自然和人工系統是包括反饋迴路的網路這一想法提供了靈活性。這種連通性,即不同的網路變數在不同的時間點處於不同的狀態,解釋了複雜系統的不確定性(non-deterministic nature)、系統的多變數性(multi-variable nature)和這些系統的突創性(emergent quality)。突創(Emergence) 是一種系統特徵,其中整體的特徵不能用元件來相加解釋,水變成冰就是一個突創的例子。複雜性(complexity) 向我們展示的是另一種型別的系統,它由遠遠超出笛卡爾科學的原理來解釋。

複雜系統(complex systems)的一個特徵解釋了為什麼機器學習(ML)作為解釋科學的工具代表產生了巨大的進步。 複雜系統是自下而上的層級結構,這意味著量子粒子結合形成原子,原子變成分子,然後變成細胞、器官(系統),最終變成人類(系統)。諾貝爾經濟學獎得主赫伯特·西蒙(Herbert Simon)把這種部件的組合稱為綜合(combining) [5],它是人類的創造力和不斷進化的基礎。每當你拉動拉桿,老虎機就會旋轉,結果就會改變。在系統層次結構任何一級的很多結果都能提高生存能力,而很多變化也不能。無論是人工合成還是自然過程,這種綜合過程都能創造出多樣性,從而潛在地改善結果。這種組合過程的概念是計算生物學、化學和物理學的知識基礎。

哈佛大學傳奇生物學教授EO Wilson解釋得很好。

“我們淹沒在資訊中,同時又渴望智慧。從今以後,世界將由組合器(synthesizers)來進行管理,人們能夠在正確的時間組合正確的資訊,進行批判性的思考,並明智地做出重要的選擇。”

基於這一思想,威爾遜創立了後來被稱為計算生物學(computational biology)的理論——將機器學習(ML)應用於生物學研究。在生物學中,我們不僅要考慮生物的物種,還要考慮所有的基因組及其組成成分的多層次結構。隨著資料集規模的不斷增加,機器學習(ML)的應用從資料分析(data analytics) 擴充套件到預測性分析和規範性分析(predictive and prescriptive analytics) 從生物學擴充套件到醫學、農業、材料科學和資訊物理(cyber-physical)應用。機器學習(ML)是用於跨學科模式識別的完美工具。最終,我們認識到機器學習(ML)不僅僅可以用於分析資料,還可以用於設計醫學、材料科學、農業和其他領域問題的解決方案。機器學習(ML)可以分析元件的合成組合,以確定最佳的理論解決方案。我們不再需要評估成千上萬的解決方案。機器學習(ML)預先篩選瞭解決方案,減少了工作量,更重要的是縮短了上市時間(對於拯救生命的解決方案)。

漢娜·弗萊(Hannah Fry)解釋了事情的真相。

數學是對現實的抽象,而不是複製現實,它在這個過程中提供了真正的價值。透過允許人類從抽象的角度來看待世界,您建立了一種唯一能夠捕獲和描述模式和機制(patterns and mechanisms)的語言,否則這些模式和機制將永遠保持隱藏狀態。而且,正如過去200年來任何一位科學家或工程師都會告訴你的那樣,理解這些模式(patterns)是能夠利用它們的第一步。” [6]

正如威爾遜(Wilson)所預料的那樣,機器學習(ML)透過使用模式識別演算法,成為歷史上進行數學運算的最佳工具。  正如複雜性經濟學家(complexity economist)布萊恩·阿瑟(W. Bryan Arthur)的解釋:“我們用方程操縱系統,使其達到我們所尋求的某種形式:某種解的表示式,某種公式,某種必要條件,某種數學結構,某種所尋求的對系統中包含的真理的證明。” ......“演算法為我們提供了研究形成過程的可能性。研究人員研究什麼樣的生成過程會產生給定的模式,以及這可能如何隨著不同的演算法設計而變化。 因此,因此,形成的模式或結構與形成它的演算法之間存在著來回反覆。這種風格(style)變成了實驗性的:演算法產生某種結構,這個結構反饋給查詢產生它的演算法。” [7]機器學習(ML)進化的下一步是重新定位這個“生成過程”。

隨著機器學習(ML)的普及和其實用性的提高,雲端計算蓬勃發展。根據Synergy Research預測,到2026/2027年,雲端計算的收入將超過1萬億美元。[8]雲端計算與更好的資料庫技術相結合,支援針對特定問題擴大資料集大小。 隨著資料庫技術的改進,可用ML演算法的分類也得到了改進。其中有一組演算法是生成式人工智慧(Generative AI),它因根據文字和藝術作品資料產生原創文字作品和藝術作品而備受關注,更重要的發展是生成式人工智慧在科學領域的應用。

生成式人工智慧有很多種版本——無監督、有監督和強化。不管是哪種風格的演算法,合成資料要麼被用作文字或藝術作品形式的輸出,要麼被用作新的訓練資料來改進演算法。將合成資料用作訓練資料有許多用途,包括讓使用者匿名。然而,我認為更令人興奮的發現是由電腦科學家Daphne Koller,MacArthur Genius和早期生物醫學公司Insitro的執行長說明的。利用合成資料,Insitro發現了醫療資料集中的新特徵,而這些特徵是研究人員以前不知道的。基本上,演算法看到了人類看不到的模式,並在新的合成資料中複製了它們。科勒認為,在未來的合成資料集中重複出現的新特徵可能會將醫學研究帶到基礎醫學科學的一個全新水平。[9]這種邏輯也可以應用於自然科學的幾乎任何計算領域,從而開啟新層次的基礎理論研究。

風險投資公司a16z的聯合創始人馬克·安德烈森(Marc Andresseen)在最近的一次播客中指出,新技術讓我們能夠“重新審視基本原理” 。科學家歷來受到實驗工具的限制。生成性人工智慧有可能在根本層面上改變科學。現代科學史最初是由經驗資料分析形成的,並得到數學的驗證。 如今,隨著合成資料的出現,我們即將實現用數學處理整個科學發現過程,而科學家們只做驗證。正如Air Street Capital的風險投資人所說,“人工智慧優先(AI-first)源於設計”。《化學資訊學雜誌》(Journal of Cheminformatics)對這種人工智慧優先的設計進行了很好的解釋:

“近年來,人工智慧和機器學習(AI/ML)在研發藥物中的應用迅速增加,為藥物設計專案提供了AI輔助設計工具。人工智慧的優勢在於從來自不同來源的大量資料中發現模式(patterns),最大限度地增強人類在分子最佳化等挑戰性任務中的能力。分子從頭生成(De novo Molecular Design)的進步使得藥物設計的計算機設計-製造-測試-分析(DMTA)週期中的設計步驟能夠自動化。[10]

高階研究人員使用機器學習(ML)來加速新方法——DMTA,以在相關行業中增加新化學品和藥物的開發。研究人員將持續改進演算法以最佳化這一過程,但許多科學研究已經轉移到正在徹底改變生物學、化學和醫學的計算模型上。

Stable Diffusion創始人Emad Mostaque在《麻省理工學院技術評論(MIT Technology Review)》(2023年2月)中強調了這一點。

“谷歌和微軟正在全力以赴,將生成性人工智慧作為其未來的核心。沒有什麼“發展生成式AI還為時過早”,這些萬億美元的公司正在轉移他們的整個戰略和重點。我想不起有哪一次技術和戰略轉變像這樣迅速而有意義。”

將生成式人工智慧與Excel或iPhone進行比較是低估了這一新技術的潛在影響。生成型人工智慧的效果很可能相當於電學(electricity)或夏農的資訊理論(Shannon’s Information Theory)。Generative AI will be a Superpower!   [11]

事實上我們一無所知,因為真理在深處。

In reality we know nothing, for truth is in the depths.

——Democritus

END

參考資料

[1] https://bu.ac.bd/uploads/BUJ1V5I12/6.%20Hena%20Rani%20Biswas.pdf

[2] Complexity: The Emerging Science at the Edge of Order and Chaos by M. Mitchell Waldrop

[3] https://www.statisticshowto.com/deterministic-function-nondet...

[4] https://www.statisticshowto.com/deterministic-function-nondet...

[5] https://monoskop.org/images/9/9c/Simon_Herbert_A_The_Sciences... by Herbet A. Simon

[6] The Mathematics of Love by Hannah Fry

[7] https://beijer.kva.se/wp-content/uploads/2020/03/Disc269_Arth... by W. Brian Arthur

[8] https://www.nextplatform.com/2023/01/26/cloud-spending-to-top...

[9] https://www.mckinsey.com/industries/life-sciences/our-insight...

[10] https://jcheminf.biomedcentral.com/articles/10.1186/s13321-02...

[11] Many have used this phrase. It is not clear to me who deserves the credit.

本文經原作者授權,由Baihai IDP編譯。如需轉載譯文,請聯絡獲取授權。

原文連結

https://www.topbots.com/the-evolution-of-science-from-descart...

關於原作者: 作者Robert H. Hacker是StartUP FIU的co-founder 和 Director。曾在麻省理工學院斯隆管理學院(MIT Sloan School of Management)任教。

相關文章