美國科學促進會:機器學習“正在導致科學危機”

大資料文摘發表於2019-02-25

美國科學促進會:機器學習“正在導致科學危機”

大資料文摘出品

編譯:張秋玥

科學家正越來越依賴機器學習技術,雖然這一技術的解釋性自誕生以來就廣受質疑,但當這一問題出現在科學領域,將產生非常危險的結果。

來自休斯頓萊斯大學的Genevera Allen博士說,對這一體系日益增長的使用導致了“科學危機”。

她警告科學家,如果不改進技術,他們就會浪費時間與金錢。

越來越多的科學研究涉及使用機器學習軟體來分析已經被收集的資料——從生物醫學研究到天文學的許多學科領域都是如此。所使用的資料集非常龐大,並且昂貴。

再現性危機

美國科學促進會:機器學習“正在導致科學危機”

但是,根據Allen博士的說法,他們提出的答案很可能是不準確甚至錯誤的,因為軟體識別到的是僅存在於該資料集中而非現實世界中的規律。

“通常人們也不會發現這些研究並不準確,直到有人在一個真正的大型資料集上應用這些技術,並說'天哪,這兩項研究的結果並不一致'”,她說。

“現在人們普遍認識到科學中的再生性危機了。我冒昧地說一句,這一危機很大一部分都來自於科學中機器學習技術的使用。”

科學中的“再現性危機”指的是,當另一組科學家嘗試相同的實驗時,許多研究結果壓根無法被再現。這意味著最初的結果是錯誤的。一項分析表明,在世界範圍內進行的生物醫學研究中,高達85%是浪費精力。

這是一場已經持續了20年的危機,緣起於實驗設計得不夠好,無法確保科學家們不會自欺欺人、只看到自己想得到的實驗結果。

錯誤的規律

Allen博士表示,機器學習系統和大型資料集的使用加速了危機。這是因為機器學習演算法專門用於在資料集中查詢有趣的東西,因此當他們在大量資料中進行搜尋時,不可避免地會找到某種規律。

美國科學促進會:機器學習“正在導致科學危機”

“問題是,我們真的可以相信這些發現嗎?”她告訴BBC新聞。

“這些新發現是真實的嗎?它們能夠代表科學嗎?它們是否可重複?如果我們有一個額外的資料集,我們能夠在其上看到相同的科學發現或原理嗎?不幸的是,答案通常是否定的。”

Allen博士正與休斯敦貝勒醫學院的一組生物醫學研究人員合作提高他們結果的可靠性。她正在開發下一代機器學習和統計技術;該技術不僅可以為科學發現篩選大量資料,還可以報告結果有多高的不確定性以及再現性。

“收集這些龐大的資料集非常昂貴。我告訴科學家,與我合作的話,你的成果可能需要更長時間才能釋出,但最終你的結果將經得起時間的考驗。”

“它將幫助科學家節約資金。此外,幫助避免前沿科技誤入歧途也是非常重要的。”

相關報導:

https://www.bbc.com/news/science-environment-47267081

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2636913/,如需轉載,請註明出處,否則將追究法律責任。

相關文章