非真,亦非假——20世紀數學悖論入侵機器學習
大資料文摘出品
編譯:籍緩、胡笳、錢天培
20世紀30年代,奧地利數學家Kurt Gödel向世人證明,集合論中的“連續統假設(continuum hypothesis)”既無法被證明,也無法被證偽。
一個徹頭徹尾的悖論。
自此,這一悖論如烏雲般籠罩於數學界,並給數學的根基帶了革命性的改變。
而今,這一朵烏雲出人意料地降臨到了機器學習界,或將“顛覆”機器學習理論。
這一研究的最新結果已被發表於1月7日的Nature Machine Intelligence。
那麼,什麼是“連續統假設(continuum hypothesis)”?這一假設對機器學習而言又意味著什麼呢?
近日,幾位研究機器學習問題的數學家表示,“可學習性”問題——即演算法能否從有限的資料中提取模式——與被稱為連續統假設(continuum hypothesis)的悖論有關。 數學家Gödel曾表示,使用標準數學語言不能證明該假設是真是假。
“對我們來說,這是一個驚喜,”該論文的作者之一、以色列理工學院(Technio)的Amir Yehudayoff說,雖然有許多技術數學問題被同樣認為“不可判定”,但他之前並沒有想到這種現象會出現在機器學習中一個相對簡單的問題上。
英國斯旺西大學( Swansea University, UK)的電腦科學家John Tucker說,這篇論文是“關於我們知識侷限性的重量級結果”,對數學和機器學習都具有基礎性意義。
並非所有無限集合都是大小相等的
研究人員通常根據演算法是否可以被推廣應用來定義可學習性。比如,演算法會回答“是或否”型別的問題,例如“這張圖是否是隻貓?”。透過有限數量的資料進行訓練,然後應用於猜測新資料的答案。
Yehudayoff和他的合作者在研究可學習性和“壓縮”之間的聯絡時得出了結論,這意味著找到一種方法,來總結較小資料集中大量資料的顯著特徵。 作者發現,資訊被有效壓縮的能力可以被歸結為集合理論中的一個問題——物件的數學集合,例如溫氏圖中的集合。特別是對於涉及包含無限多個物件的不同大小的集合。
集合論的創始人Georg Cantor在19世紀70年代證明,並非所有的無限集都是大小相等的:特別值得一提是,整數的集合比所有實數的集合“小”,也稱為連續統(continuum)。(實數包括無理數,有理數和整數。)Cantor還推測不可能存在“中間”大小的集合,即大於整數但小於連續統的集合。但他無法證明這種連續統假設,許多追隨他的數學家和邏輯學家也未能證明。
他們的努力是徒勞的。
Gödel 1940年的成果(最終由美國數學家 Paul Cohen於20世紀60年代完成)表明,連續統假設不能從標準公理被證明為真或假——這一結論在集合理論上被認為是真的,並通常被認為是所有數學的基礎。
Gödel 和Cohen關於連續統假設的研究表明,可以存在相容標準數學的並行數學宇宙,其中一個連續統假設被新增到標準公理並因此被宣佈為真,而另一個則被宣佈為假。
可學習性的不穩定性
在最新的論文中,Yehudayoff和他的合作者將可學習性定義為透過取樣少量資料點來預測較大資料集的能力。與Cantor問題的聯絡是,選擇較小的取樣集合的方式有無限種,但這個無限集合有多大卻是未知的。
論文作者繼續表明,如果連續統假設為真,那麼一個小樣本就足以進行外推。但如果它為假,那麼將需要無限的樣本。透過這種方式,他們表明可學習性問題等同於連續統假設。因此,可學習性問題也處於不穩定狀態,只有透過選擇公理宇宙才能解決。
Yehudayoff說,這一結果也有助於更好地理解可學習性。“如果你想了解‘學習’,壓縮和泛化之間的聯絡非常重要。”
倫敦大學學院的電腦科學家Peter O’Hearn說,研究人員發現了許多類似的“不可判定”問題。特別是,繼Gödel的工作之後,共同創立演算法理論的Alan Turing發現了一類任何計算機程式都無法保證能在任何有限的步驟中解答的問題。
但這種不可判定性是“罕見的”,而且更令人驚訝的是,O'Hearn補充說:它指出了 Gödel 的發現對任何數學語言都存在內在不完整性。這些發現可能對機器學習理論很重要,儘管“不確定它會在實際應用中產生多大影響”。
相關報導:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2563003/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 《20世紀英國女性文學探微》筆記筆記
- 遊戲論 | 21世紀“顛覆性遊戲”反思遊戲
- 世紀大爭論:Linux還是GNU/Linux?Linux
- JS -真與假-JS
- React的併發悖論React
- 機器學習之分類:真與假以及正類別與負類別機器學習
- 機器學習數學知識積累之概率論機器學習
- 中醫基礎理論新世紀第四版pdf
- 世紀華通財報:2019年世紀華通營收151億元 淨利潤增89%營收
- “假設”家族大起底!如何正確區分科學假設、統計假設和機器學習假設?機器學習
- 對“芝諾悖論”的思考
- 世紀聯華的 Serverless 之路Server
- angular學習筆記(六)-非入侵式javascriptAngular筆記JavaScript
- 機器學習數學複習 - 1.概率論基礎機器學習
- 17世紀的社交網路
- 世紀佳緣財:2014年Q4世紀佳緣營收為1.331億元 同比增長20.4%營收
- 細數二十世紀最偉大的10大演算法演算法
- 世紀佳緣財報:2013年Q3世紀佳緣營收1.287億元 淨利潤1760萬元營收
- 程式設計師工作效率悖論程式設計師
- 悲催的程式設計師悖論程式設計師
- 開發人員的測試悖論
- 如何假裝你懂機器學習?機器學習
- 漫畫:21世紀程式設計程式設計
- 世紀佳緣財報:2012年Q3世紀佳緣營收1.135億 比去年同期增24.8%營收
- 亞馬遜評論區遭AI虛假評價入侵,網購信任危機日益加劇亞馬遜AI
- 《Fast Company》:21世紀最糟糕的20部手機AST
- 理解這些變革悖論,才能更好推動數字化轉型
- 21世紀程式設計師最大的謊言:學歷及讀書無用論!程式設計師
- 自動化測試經驗的悖論
- 世紀華通2020年Q3財報:營收40億元營收
- 21世紀最臭名昭著的20次網路攻擊
- 世紀佳緣財報:2012年Q2世紀佳緣淨營收為9940萬元 同比增長19.2%營收
- PHP,21世紀的霸主(之3) (轉)PHP
- 21世紀C語言教程-前言 (轉)C語言
- 21世紀最差的10個行業行業
- 婚禮紀:2021年五一小長假結婚大資料大資料
- 21世紀商業評論:網際網路民工愛寶馬 金融X絲開本田
- 數千網站遭入侵試圖誘騙訪問者安裝假的更新網站