非真,亦非假——20世紀數學悖論入侵機器學習
大資料文摘出品
編譯:籍緩、胡笳、錢天培
20世紀30年代,奧地利數學家Kurt Gödel向世人證明,集合論中的“連續統假設(continuum hypothesis)”既無法被證明,也無法被證偽。
一個徹頭徹尾的悖論。
自此,這一悖論如烏雲般籠罩於數學界,並給數學的根基帶了革命性的改變。
而今,這一朵烏雲出人意料地降臨到了機器學習界,或將“顛覆”機器學習理論。
這一研究的最新結果已被發表於1月7日的Nature Machine Intelligence。
那麼,什麼是“連續統假設(continuum hypothesis)”?這一假設對機器學習而言又意味著什麼呢?
近日,幾位研究機器學習問題的數學家表示,“可學習性”問題——即演算法能否從有限的資料中提取模式——與被稱為連續統假設(continuum hypothesis)的悖論有關。 數學家Gödel曾表示,使用標準數學語言不能證明該假設是真是假。
“對我們來說,這是一個驚喜,”該論文的作者之一、以色列理工學院(Technio)的Amir Yehudayoff說,雖然有許多技術數學問題被同樣認為“不可判定”,但他之前並沒有想到這種現象會出現在機器學習中一個相對簡單的問題上。
英國斯旺西大學( Swansea University, UK)的電腦科學家John Tucker說,這篇論文是“關於我們知識侷限性的重量級結果”,對數學和機器學習都具有基礎性意義。
並非所有無限集合都是大小相等的
研究人員通常根據演算法是否可以被推廣應用來定義可學習性。比如,演算法會回答“是或否”型別的問題,例如“這張圖是否是隻貓?”。通過有限數量的資料進行訓練,然後應用於猜測新資料的答案。
Yehudayoff和他的合作者在研究可學習性和“壓縮”之間的聯絡時得出了結論,這意味著找到一種方法,來總結較小資料集中大量資料的顯著特徵。 作者發現,資訊被有效壓縮的能力可以被歸結為集合理論中的一個問題——物件的數學集合,例如溫氏圖中的集合。特別是對於涉及包含無限多個物件的不同大小的集合。
集合論的創始人Georg Cantor在19世紀70年代證明,並非所有的無限集都是大小相等的:特別值得一提是,整數的集合比所有實數的集合“小”,也稱為連續統(continuum)。(實數包括無理數,有理數和整數。)Cantor還推測不可能存在“中間”大小的集合,即大於整數但小於連續統的集合。但他無法證明這種連續統假設,許多追隨他的數學家和邏輯學家也未能證明。
他們的努力是徒勞的。
Gödel 1940年的成果(最終由美國數學家 Paul Cohen於20世紀60年代完成)表明,連續統假設不能從標準公理被證明為真或假——這一結論在集合理論上被認為是真的,並通常被認為是所有數學的基礎。
Gödel 和Cohen關於連續統假設的研究表明,可以存在相容標準數學的並行數學宇宙,其中一個連續統假設被新增到標準公理並因此被宣佈為真,而另一個則被宣佈為假。
可學習性的不穩定性
在最新的論文中,Yehudayoff和他的合作者將可學習性定義為通過取樣少量資料點來預測較大資料集的能力。與Cantor問題的聯絡是,選擇較小的取樣集合的方式有無限種,但這個無限集合有多大卻是未知的。
論文作者繼續表明,如果連續統假設為真,那麼一個小樣本就足以進行外推。但如果它為假,那麼將需要無限的樣本。通過這種方式,他們表明可學習性問題等同於連續統假設。因此,可學習性問題也處於不穩定狀態,只有通過選擇公理宇宙才能解決。
Yehudayoff說,這一結果也有助於更好地理解可學習性。“如果你想了解‘學習’,壓縮和泛化之間的聯絡非常重要。”
倫敦大學學院的電腦科學家Peter O’Hearn說,研究人員發現了許多類似的“不可判定”問題。特別是,繼Gödel的工作之後,共同創立演算法理論的Alan Turing發現了一類任何計算機程式都無法保證能在任何有限的步驟中解答的問題。
但這種不可判定性是“罕見的”,而且更令人驚訝的是,O'Hearn補充說:它指出了 Gödel 的發現對任何數學語言都存在內在不完整性。這些發現可能對機器學習理論很重要,儘管“不確定它會在實際應用中產生多大影響”。
相關報導:
https://www.nature.com/articles/d41586-019-00083-
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2563003/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 機器學習數學複習 - 1.概率論基礎機器學習
- 機器學習緒論機器學習
- 機器學習數學知識積累之概率論機器學習
- 如何假裝你懂機器學習?機器學習
- 機器學習之分類:真與假以及正類別與負類別機器學習
- 機器學習學習中,數學最重要!機器學習
- 緒論 初識機器學習機器學習
- “假設”家族大起底!如何正確區分科學假設、統計假設和機器學習假設?機器學習
- python 相似語句匹配(非機器學習)Python機器學習
- 機器學習的數學焦慮機器學習
- 吳恩達機器學習筆記 —— 1 緒論:初識機器學習吳恩達機器學習筆記
- 【機器學習】數值分析01——緒論及誤差分析機器學習
- 李巨集毅機器學習課程筆記-1.機器學習概論機器學習筆記
- 我們該如何學習機器學習中的數學機器學習
- 機器學習引數模型與非引數模型/生成模型與判別模型機器學習模型
- 【機器學習】機器學習簡介機器學習
- 嘗試討論線性方程組相關數學原理、機器學習模型引數求解的數學本質機器學習模型
- 機器學習之超引數機器學習
- 機器學習——基尼指數機器學習
- 數論分塊學習
- 機器學習-整合學習機器學習
- 如何學習機器學習機器學習
- 機器學習-學習筆記(一) --> (假設空間 & 版本空間)及 歸納偏好機器學習筆記
- 決策樹在機器學習的理論學習與實踐機器學習
- [python學習]機器學習 -- 感知機Python機器學習
- 【方法論】機器學習演算法概覽機器學習演算法
- 機器學習-學習率:從理論到實戰,探索學習率的調整策略機器學習
- 【機器學習】--Python機器學習庫之Numpy機器學習Python
- 大型機器學習【Coursera 史丹佛 機器學習】機器學習
- (一) 機器學習和機器學習介紹機器學習
- 機器學習的7個真實世界生產案例機器學習
- 機器學習數學知識積累總結機器學習
- 機器學習&深度學習之路機器學習深度學習
- 機器學習之學習速率機器學習
- 機器學習學習筆記機器學習筆記
- 機器學習-整合學習LightGBM機器學習
- 機器學習:監督學習機器學習
- 機器學習數學知識積累之高等數學微積分機器學習