AI研究中數學和演算法哪個優先?

banq發表於2024-04-18


問題:我現在正在學習擴散背後的方法(DDPM、基於分數的方法和其他方法)。我想知道研究人員究竟是如何提出這個想法的?

發明新方法的過程是這樣的嗎?

  1. 我們想製作更好的影像生成器。
  2. 哦,資料永遠都不夠......
  3. 讓我們透過新增一些噪聲破壞來乘以資料
  4. 這樣做效果不錯,如果我們製作一個去噪網路呢?
  5. 如果我們製作一個網路,從純噪聲中生成影像呢?
  6. 這樣不行,如果我們把去噪步驟做得更小一些呢?
  7. 這樣就成功了!現在,讓我們建立一些理論來解釋它為什麼有效。
  8. 撰寫論文

或者像這樣?

  1. 我們想製作更好的影像生成器。
  2. 我們非常瞭解 "非平衡熱力學",並想嘗試以某種方式應用它
  3.  我們以某種方式想出了一種依賴於該理論數學的演算法
  4. 成功了
  5. 我們撰寫論文。

通常哪個在先?數學還是演算法?

網友回答:
1、在人們如何提出這些想法的過程中,你忘記了一個步驟,那就是文獻綜述!人們會從許多其他人的工作中得到了啟發,這些工作與 DDPM 論文中的內容非常相似。

我認為一般的過程是:

  1. -透過閱讀論文了解該領域
  2.  找出應用/方法中的漏洞
  3.  提出新方法來填補這些漏洞
  4.  用現有的理論來支援這些方法,或許再加上一點自己的理論

我不認為人們會在閱讀了該領域的論文後直接提出新理論,然後將其付諸實施。儘管在大多數論文中,介紹會讓你相信是按照這樣的順序進行的(介紹、背景、理論、應用)。

我也在研究擴散理論,學習曲線非常陡峭,但一旦你習慣了,就會發現都是一樣的東西,朗熱文、貝葉斯等等。

2、實際上,我也在研究基於擴散/分數的模型,學習曲線很陡峭,因為它包含了從統計學、物理學和其他領域借鑑的理論。而這些理論已經非常龐雜和先進,因此要快速掌握其中的概念並不容易。我學得越深,就越複雜,但我經常能學到一些新的有趣的東西。

3、從外觀上看,這些想法似乎不知從何而來。但如果你多年來一直在思考去噪和變異自動編碼器,那麼擴散模型的想法就是這些想法的自然綜合。

4、就擴散模型而言,我認為最初的研究人員具有物理學背景,並從物理學的角度研究了生成模型。直到一些博士生將其與架構工程結合起來,幾年後人們才意識到這一點。

一般來說,我認為研究人員在學習過程中會開發一套他們喜歡的技術工具包,

  • 當他們研究問題時,通常會透過這套工具包的視角來看待問題。
  • 這個工具包可以是任何東西:理論、數值近似、演算法、架構等。
  • 這就是為什麼博士生的 "探索-開發 "策略能取得很好的效果。
  • 如果你跟蹤研究人員或實驗室的工作,工具包通常會顯露出來。
  • 這也是為什麼你經常能看到一些論文寫著 "X 就是 Y",比如隨機最佳化就是貝葉斯推理。

5、你想研究資訊理論和機率分佈的偏微分方程(想想福克-普朗克和隨機與擴散過程--微分方程),這是一個奇妙的數學領域,有著令人難以置信的深度和深遠的應用。
我想你會真正體會到它的廣度和深度,但要記住這一點。
應用數學並不總是對一門學科公正,我相信更多的是想法和直覺:

  • 最終你會在研究圖論時看到同樣的想法被應用到資訊傳播、影響傳播、資料傳播等方面......

這就是你通往神經網路和 Ai 擴散的道路。

發明新演算法源於一個創造性的過程:

  • "如果我這樣做而不是這樣做會怎樣",
  • "這樣做能改進嗎?
  • 然後是 "為什麼"<--這就是你的數學,但你首先需要知道其他演算法 "為什麼 "會起效。

在許多情況下,如果你看一下基礎論文,你正在研究的想法就是在這篇論文中提出的,然後再看看研究人員的背景,我還沒見過沒有數學家參與的論文。

6、另外,我想我有點應付了事,因為這些數學知識真的很難消化,如果這些研究人員先提出理論,然後再進行實際應用,我會覺得不可思議。對我來說,那真是不可思議。
如果實際實現不成功怎麼辦?不知怎麼的,我覺得開發程式碼比開發理論更省錢。也許我只是有偏見(我 90% 的工作都是軟體)。

7、如果您已有統計學背景,這根本不是什麼大問題。有一個定理叫做 Rao-Blackwell 定理,說的是如果你把一個估計值作為 "充分統計量 "的條件,你就能得到一個更好的估計值。如果你對它已經很熟悉了,就不難看出現有的方法並說:"哦,我知道如何改進它,只要用 Rao-Blackwell 定理就可以了"。這就是 DDIM 所要做的--採用現有的方法,使用現有的工具,使其具有更低的方差。

老實說,很多時候理論比程式碼更容易開發。主要是因為理論抽象了許多可能的程式碼實現。如果你在不理解理論的情況下實現了某些東西,而它卻不起作用,你該從哪裡開始修復呢?你的超引數有問題嗎?是否存在漏洞?這個想法是不是從根本上就不對?理論告訴你,如果你從某個假設出發,就會得到某個結果。因此,如果你沒有得到預期的結果,那一定是某個假設錯了,這就給了你一個開始修正它的地方。這讓你對結果有了一定程度的控制,而試驗和錯誤則沒有。

8、老實說,通常人們會嘗試不同的事情,最終有些事情會奏效。然後他們寫下理論/數學來嘗試解釋為什麼會這樣。

9、我認為兩者都有很多。例如,在 NLP 領域,人們要麼以純粹的語言學為重點,要麼以純粹的電腦科學為重點來解決主要的大模型問題,但有時它們並不能很好地重疊。

10、數學和演算法之間通常會有很多來回,但起點取決於個人。有些人有更理論的方法;有些人則有更多的理論方法。他們根據他們試圖解決的數學問題仔細構建演算法。其他人從猜測開始,計算出數學結果,然後根據需要進行更新。

11、擴散方法與影像變分自動編碼器的方法非常相似,其研究根源可以追溯到幾十年前。我建議閱讀一些最初的論文,並檢查引言中使用的參考文獻以瞭解有關該主題的一些歷史。

12、演算法(工程/執行)是第一位的,如果你是一名研究人員/實踐者,試圖使用該模型(我的意思是第一位,並不意味著你以後不需要理解它)。在我看來,你確實需要了解基本原理才能創造出新的東西。而作為實踐者,你必須能夠快速複製並親眼看到結果。
 

相關文章