美國科學促進會:機器學習“正在導致科學危機”
大資料文摘出品
編譯:張秋玥
科學家正越來越依賴機器學習技術,雖然這一技術的解釋性自誕生以來就廣受質疑,但當這一問題出現在科學領域,將產生非常危險的結果。
來自休斯頓萊斯大學的Genevera Allen博士說,對這一體系日益增長的使用導致了“科學危機”。
她警告科學家,如果不改進技術,他們就會浪費時間與金錢。
越來越多的科學研究涉及使用機器學習軟體來分析已經被收集的資料——從生物醫學研究到天文學的許多學科領域都是如此。所使用的資料集非常龐大,並且昂貴。
再現性危機
但是,根據Allen博士的說法,他們提出的答案很可能是不準確甚至錯誤的,因為軟體識別到的是僅存在於該資料集中而非現實世界中的規律。
“通常人們也不會發現這些研究並不準確,直到有人在一個真正的大型資料集上應用這些技術,並說'天哪,這兩項研究的結果並不一致'”,她說。
“現在人們普遍認識到科學中的再生性危機了。我冒昧地說一句,這一危機很大一部分都來自於科學中機器學習技術的使用。”
科學中的“再現性危機”指的是,當另一組科學家嘗試相同的實驗時,許多研究結果壓根無法被再現。這意味著最初的結果是錯誤的。一項分析表明,在世界範圍內進行的生物醫學研究中,高達85%是浪費精力。
這是一場已經持續了20年的危機,緣起於實驗設計得不夠好,無法確保科學家們不會自欺欺人、只看到自己想得到的實驗結果。
錯誤的規律
Allen博士表示,機器學習系統和大型資料集的使用加速了危機。這是因為機器學習演算法專門用於在資料集中查詢有趣的東西,因此當他們在大量資料中進行搜尋時,不可避免地會找到某種規律。
“問題是,我們真的可以相信這些發現嗎?”她告訴BBC新聞。
“這些新發現是真實的嗎?它們能夠代表科學嗎?它們是否可重複?如果我們有一個額外的資料集,我們能夠在其上看到相同的科學發現或原理嗎?不幸的是,答案通常是否定的。”
Allen博士正與休斯敦貝勒醫學院的一組生物醫學研究人員合作提高他們結果的可靠性。她正在開發下一代機器學習和統計技術;該技術不僅可以為科學發現篩選大量資料,還可以報告結果有多高的不確定性以及再現性。
“收集這些龐大的資料集非常昂貴。我告訴科學家,與我合作的話,你的成果可能需要更長時間才能釋出,但最終你的結果將經得起時間的考驗。”
“它將幫助科學家節約資金。此外,幫助避免前沿科技誤入歧途也是非常重要的。”
相關報導:
https://www.bbc.com/news/science-environment-47267081
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2636913/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 「機器學習之父」Mitchell 撰文:AI 如何加速科學發展,美國如何抓住機遇機器學習MITAI
- 中國科協生命科學學會聯合體:中國生命科學十大進展
- 美國國家科學委員會:2020年科學與工程指標指標
- 資料科學家會被機器學習工程師取代嗎? - KDnuggets資料科學機器學習工程師
- 美國國家科學基金會:2018年科學與工程指標報告指標
- 資料科學和機器學習面試問題資料科學機器學習面試
- 機器學習演算法迴避了科學方法 - thenewstack機器學習演算法
- 中國科學院物理學家利用機器學習揭示原子核殼演化機器學習
- 美國國家科學委員會:2022年科學與工程指標報告指標
- 走進AI科學之美AI
- Python機器學習 5個資料科學家案例解析Python機器學習資料科學
- 計算機學科國內外會刊評級計算機
- 機器學習工程師與資料科學家的大斗法機器學習工程師資料科學
- 機器學習和資料科學領域,推薦幾本學習書單機器學習資料科學
- 注水、佔坑、瞎掰:起底機器學習學術圈的那些“偽科學”機器學習
- 五個給機器學習和資料科學入門者的學習建議機器學習資料科學
- 2018資料科學和機器學習調查:Hadoop被拋棄!資料科學機器學習Hadoop
- 資料科學家與機器學習工程師的區別? - kdnuggets資料科學機器學習工程師
- Java可以用於機器學習和資料科學嗎? - kdnuggetsJava機器學習資料科學
- ApacheCN 資料科學/人工智慧/機器學習知識樹 2019.2Apache資料科學人工智慧機器學習
- TikTok機器學習與資料科學家的面試題 - Reddit機器學習資料科學面試題
- 《科學·進展》:科學家首次發現,新冠病毒會導致神經元融合,嚴重損害神經活動
- 密碼危機:深度學習正在加速密碼破解!密碼深度學習
- 資料科學系統學習 機器學習演算法 # 西瓜書學習記錄 [12] 整合學習實踐資料科學機器學習演算法
- 免費!資料科學及機器學習必備書單下載!資料科學機器學習
- 「資料科學家」必備的10種機器學習演算法資料科學機器學習演算法
- 科學家提出超越傳統機器學習的量子演算法機器學習演算法
- 《自然·神經科學》:越睡身上越疼?華人科學家首次揭示睡眠促進慢性疼痛形成與維持的機制
- 掌握資料科學和機器學習數學基礎必備的7本書資料科學機器學習
- 精確預測相分離蛋白質,同濟&中國科學院機器學習預測器PSPire機器學習
- 美國國家科學基金會:2020年全球科學與工程指標報告 中國科技實力迅速提升指標
- 16個用於資料科學和機器學習的頂級平臺資料科學機器學習
- 美國國家科學學院:地球上的生物分佈
- PNAS:美國電腦科學學生CS技能超中國
- 【機器學習】機器學習簡介機器學習
- 科學技術部:2019年度中國科學十大進展
- [譯] 資料科學領域十大必知機器學習演算法資料科學機器學習演算法
- 資料科學、機器學習、人工智慧的區別到底是什麼?資料科學機器學習人工智慧