演算法是不是靈魂?舉辦演算法大獎賽有用嗎?
這是前Netflix 研究/工程總監對十年前Netflix推薦演算法獎的再次宣告,原因來自於“開放式演算法競賽有用且有價值嗎”的思考與討論。
反對設立這種外部大獎賽的觀點認為:公司組織還會認為他們的 ML創新將來自大獎賽?讓外部團隊為爭奪現金,在測試資料集上能構建最準確的模型?使用無償勞動來製作無法生產的模型肯定是不好的,這個教訓應該吸取。
很多企業(包括Netflix這樣企業)會認為 ML 創新是用來吸引注意力和$$$金錢 的最佳用途,這讓人感到驚訝。必須意識到高質量的資料比複雜模型更有價值!
而Netflix總監認為:
2006 年,Netflix 發起了一項 100 萬美元的競賽,以改進他們的推薦演算法。十年前,我在 Netflix 領導演算法,對於世界各地的數千名參與者來說,規則非常簡單:如果您能夠擊敗 Netflix 基線(稱為 Cinematch),您將贏得 100 萬美元。毫不奇怪,世界各地的許多研究人員、學生、業餘數學家和電腦科學家都抓住了這個機會。
比賽的機制也很簡單:有一個由大約 1 億個資料點組成的訓練集,包括使用者、電影、日期和 1 到 5 星的評級。有一個較小的公共驗證資料集稱為“探針”,由大約 150 萬個沒有評級的資料點組成。最後,非常重要的是,有兩個測試集隱藏了參與者的評級。為了測試您的演算法,您需要將您的預測提交給所謂的測驗測試,您將獲得以 RMSE(均方根誤差)衡量的準確度。年度進步獎,尤其是大獎,將根據不同的測試集進行衡量。
有數百篇論壇和部落格文章以及研究出版物詳細介紹了 Netflix 獎的不同方法。第一年進步獎由 Korbell 團隊(來自 AT&T 實驗室的 Yehuda Koren、Robert Bell 和 Chris Volinsky)使用 SVD(奇異值分解,儘管這種變化實際上更像是矩陣分解而不是傳統的SVD)和 RBM(受限玻爾茲曼機,一種 ANN)。SVD 的 RMSE 為 0.8914,RBM 為 0.8990,兩者的線性混合得到的 RMSE 為 0.88。
又花了 3 年時間,成千上萬的團隊試圖從那裡達到贏得大獎所需的測試集上的 0.8572 RMSE。獲獎作品 是由多個團隊開發的 104 個單獨預測器的集合,並由單層神經網路整合。
Netflix 大獎解決方案
結合SVD+RBM的2007 Progress Prize解決方案已經明顯優於現有的Cinematch演算法。因此,Netflix 派了一些工程師來生產演算法。這包括重寫程式碼並使其具有可擴充套件性,以及能夠隨著新評級的出現而逐步重新訓練。當我加入 Netflix 時,我接管了一個小團隊,該團隊負責工作和維護評級預測演算法,其中包括第一年的 Progress Prize 解決方案。
但是,有沒有采用104種演算法的大獎解決方案呢?正如我在部落格文章中提到的當時,我們認為它甚至不值得生產。需要大量的工程努力才能獲得精度的小幅提升。
讓我們談談投資回報率
我經常感到驚訝的是,在閱讀上述故事後,許多人會得出結論Netflix 的 100 萬美元投資不值得。這絕對是一個非常短視的閱讀。你知道 Netflix 可以花 100 萬美元僱傭多少矽谷工程師 3 年嗎?可能還不到一個。
Netflix 從投資的 100 萬美元獎金中得到了什麼?
- 全球數以千計的研究人員和工程師正在思考一個對 Netflix 很重要的問題
- 可以投入生產並獲得可衡量收益的解決方案(第一年進步獎)
- 作為一家在該領域進行創新的公司,成為知名品牌
我絕對確定的一件事是,如果沒有 Netflix 獎,我和許多像我一樣的人就不會在 Netflix 工作。如果不是因為獲獎吸引了人才,我懷疑 Netflix 是否能夠以他們在那些年裡所做的速度進行創新。這本身的價值遠遠超過 100 萬美元。
結論:開放式演算法競賽有用且有價值嗎?
當然,你可以爭辯說我對這個話題有很大的偏見。然而,即使到今天,我也會說它們具有巨大的價值。讓大型社群考慮資料集和特定問題通常會產生大量見解和有價值的結果,其中一些適用於實踐。它們還為世界各地的人們提供了一個獨特的機會來學習、接觸,在許多情況下甚至可以找到他們原本不會找到的理想工作。
話雖如此,我確實同意演算法競賽不是解決貴公司演算法需求的靈丹妙藥。它們不應被視為將問題外包給廉價國家的一種方式。
相關文章
- 第4章 區塊鏈靈魂:共識演算法區塊鏈演算法
- 智慧航空AI大賽-阿里雲演算法大賽總結(原始碼分享)AI阿里演算法原始碼
- 演算法——計算的靈魂(《演算法》一本寫了近40年的書)演算法
- 演算法大牛的部落格演算法
- 亂碼演算法大全 (轉)演算法
- 專訪滴滴演算法大賽冠軍團隊:迴歸樹模型取勝演算法模型
- 靈魂拷問,你真的瞭解DNS嗎?DNS
- Unity舉辦可持續發展公益開發大賽,獎金達35萬美元Unity
- 分散式強一致性資料庫的靈魂 – Raft 演算法分散式資料庫Raft演算法
- 分散式強一致性資料庫的靈魂 - Raft 演算法分散式資料庫Raft演算法
- 演算法--列舉策略演算法
- 負載均衡排程演算法大全負載演算法
- PHP抽獎演算法PHP演算法
- 全球1800多支隊伍參賽 阿里媽媽國際演算法大賽受熱捧阿里演算法
- C++計算幾何演算法大全C++演算法
- 亂碼演算法大全(一)Uuencode (轉)演算法
- RabbitMQ靈魂拷問MQ
- 模式11:出租靈魂模式
- 靈魂拷問:你真的理解System.out.println()列印原理嗎?
- 窮舉密碼演算法 (轉)密碼演算法
- 工程師的靈魂工程師
- 演算法競賽日誌演算法
- 演算法競賽小技巧演算法
- 報名 | 用人工智慧提升營銷效率,阿里媽媽啟動國際廣告演算法大賽人工智慧阿里演算法
- 新加坡政府將舉辦區塊鏈挑戰賽區塊鏈
- 【演算法框架套路】回溯演算法(暴力窮舉的藝術)演算法框架
- 響應式設計讓網頁設計失去靈魂了嗎?網頁
- 百度靈醫攜手中山大學中山眼科中心,舉辦PALM比賽加速眼科AI化AI
- 貪心演算法有時也很有用 - hashnode演算法
- 學演算法要讀《演算法導論》嗎?演算法
- 《演算法新解》作者劉新宇訪談問題有獎徵集(圖靈訪談)演算法圖靈
- php中獎概率演算法,可用於大轉盤、九宮格、翻牌、刮刮卡等抽獎演算法PHP演算法
- 如何準備演算法競賽?演算法
- 倍增與ST演算法 --演算法競賽專題解析(28)演算法
- 人間演算法題:到底是不是一個環?演算法
- 圖靈機:萬物皆演算法?圖靈演算法
- 走迷宮 -- 民間圖靈獎參賽者名單和作品圖靈
- 分散式系統選舉演算法剖析分散式演算法