演算法是不是靈魂?舉辦演算法大獎賽有用嗎?
這是前Netflix 研究/工程總監對十年前Netflix推薦演算法獎的再次宣告,原因來自於“開放式演算法競賽有用且有價值嗎”的思考與討論。
反對設立這種外部大獎賽的觀點認為:公司組織還會認為他們的 ML創新將來自大獎賽?讓外部團隊為爭奪現金,在測試資料集上能構建最準確的模型?使用無償勞動來製作無法生產的模型肯定是不好的,這個教訓應該吸取。
很多企業(包括Netflix這樣企業)會認為 ML 創新是用來吸引注意力和$$$金錢 的最佳用途,這讓人感到驚訝。必須意識到高質量的資料比複雜模型更有價值!
而Netflix總監認為:
2006 年,Netflix 發起了一項 100 萬美元的競賽,以改進他們的推薦演算法。十年前,我在 Netflix 領導演算法,對於世界各地的數千名參與者來說,規則非常簡單:如果您能夠擊敗 Netflix 基線(稱為 Cinematch),您將贏得 100 萬美元。毫不奇怪,世界各地的許多研究人員、學生、業餘數學家和電腦科學家都抓住了這個機會。
比賽的機制也很簡單:有一個由大約 1 億個資料點組成的訓練集,包括使用者、電影、日期和 1 到 5 星的評級。有一個較小的公共驗證資料集稱為“探針”,由大約 150 萬個沒有評級的資料點組成。最後,非常重要的是,有兩個測試集隱藏了參與者的評級。為了測試您的演算法,您需要將您的預測提交給所謂的測驗測試,您將獲得以 RMSE(均方根誤差)衡量的準確度。年度進步獎,尤其是大獎,將根據不同的測試集進行衡量。
有數百篇論壇和部落格文章以及研究出版物詳細介紹了 Netflix 獎的不同方法。第一年進步獎由 Korbell 團隊(來自 AT&T 實驗室的 Yehuda Koren、Robert Bell 和 Chris Volinsky)使用 SVD(奇異值分解,儘管這種變化實際上更像是矩陣分解而不是傳統的SVD)和 RBM(受限玻爾茲曼機,一種 ANN)。SVD 的 RMSE 為 0.8914,RBM 為 0.8990,兩者的線性混合得到的 RMSE 為 0.88。
又花了 3 年時間,成千上萬的團隊試圖從那裡達到贏得大獎所需的測試集上的 0.8572 RMSE。獲獎作品 是由多個團隊開發的 104 個單獨預測器的集合,並由單層神經網路整合。
Netflix 大獎解決方案
結合SVD+RBM的2007 Progress Prize解決方案已經明顯優於現有的Cinematch演算法。因此,Netflix 派了一些工程師來生產演算法。這包括重寫程式碼並使其具有可擴充套件性,以及能夠隨著新評級的出現而逐步重新訓練。當我加入 Netflix 時,我接管了一個小團隊,該團隊負責工作和維護評級預測演算法,其中包括第一年的 Progress Prize 解決方案。
但是,有沒有采用104種演算法的大獎解決方案呢?正如我在部落格文章中提到的當時,我們認為它甚至不值得生產。需要大量的工程努力才能獲得精度的小幅提升。
讓我們談談投資回報率
我經常感到驚訝的是,在閱讀上述故事後,許多人會得出結論Netflix 的 100 萬美元投資不值得。這絕對是一個非常短視的閱讀。你知道 Netflix 可以花 100 萬美元僱傭多少矽谷工程師 3 年嗎?可能還不到一個。
Netflix 從投資的 100 萬美元獎金中得到了什麼?
- 全球數以千計的研究人員和工程師正在思考一個對 Netflix 很重要的問題
- 可以投入生產並獲得可衡量收益的解決方案(第一年進步獎)
- 作為一家在該領域進行創新的公司,成為知名品牌
我絕對確定的一件事是,如果沒有 Netflix 獎,我和許多像我一樣的人就不會在 Netflix 工作。如果不是因為獲獎吸引了人才,我懷疑 Netflix 是否能夠以他們在那些年裡所做的速度進行創新。這本身的價值遠遠超過 100 萬美元。
結論:開放式演算法競賽有用且有價值嗎?
當然,你可以爭辯說我對這個話題有很大的偏見。然而,即使到今天,我也會說它們具有巨大的價值。讓大型社群考慮資料集和特定問題通常會產生大量見解和有價值的結果,其中一些適用於實踐。它們還為世界各地的人們提供了一個獨特的機會來學習、接觸,在許多情況下甚至可以找到他們原本不會找到的理想工作。
話雖如此,我確實同意演算法競賽不是解決貴公司演算法需求的靈丹妙藥。它們不應被視為將問題外包給廉價國家的一種方式。
相關文章
- ironSource舉辦Supersonic SuperXmas挑戰賽,9萬美金大獎虛位以待
- 第4章 區塊鏈靈魂:共識演算法區塊鏈演算法
- Unity舉辦可持續發展公益開發大賽,獎金達35萬美元Unity
- 靈魂伴侶的存在,你信嗎?
- 靈魂拷問,你真的瞭解DNS嗎?DNS
- 分散式強一致性資料庫的靈魂 – Raft 演算法分散式資料庫Raft演算法
- 分散式強一致性資料庫的靈魂 - Raft 演算法分散式資料庫Raft演算法
- php中獎概率演算法,可用於大轉盤、九宮格、翻牌、刮刮卡等抽獎演算法PHP演算法
- PHP抽獎演算法PHP演算法
- 2020年lfyz演算法設計大賽賽後題解演算法
- 智慧航空AI大賽-阿里雲演算法大賽總結(原始碼分享)AI阿里演算法原始碼
- 2024全國通用人工智慧創新應用大賽總決賽暨頒獎典禮在安徽合肥圓滿舉辦人工智慧
- 「雜文」演算法競賽之黑話大賞演算法
- RabbitMQ靈魂拷問MQ
- 貪心演算法有時也很有用 - hashnode演算法
- 【演算法框架套路】回溯演算法(暴力窮舉的藝術)演算法框架
- 硬核!奇點雲一舉斬獲人工智慧程式設計大賽一等獎、三等獎人工智慧程式設計
- 靈魂拷問:你真的理解System.out.println()列印原理嗎?
- 2024年第十六屆“金海豚獎”遊戲作品大賽獲獎名單公佈!頒獎儀式順利舉行遊戲
- 讀大學有用嗎?(推薦給在校大學生)
- 【IT老齊071】Paxos選舉演算法演算法
- 學演算法要讀《演算法導論》嗎?演算法
- 演算法競賽小技巧演算法
- 演算法競賽日誌演算法
- 2020中國電信“天翼杯”網路安全攻防大賽初賽順利舉辦
- 百度靈醫攜手中山大學中山眼科中心,舉辦PALM比賽加速眼科AI化AI
- 人間演算法題:到底是不是一個環?演算法
- 大廠resdis靈魂40問,教你如何搞定面試官面試
- 新加坡政府將舉辦區塊鏈挑戰賽區塊鏈
- python入門靈魂5問Python
- 如何準備演算法競賽?演算法
- 靈魂拷問:你精神內耗了嗎?由TA來治癒吧
- 倍增與ST演算法 --演算法競賽專題解析(28)演算法
- 億咖通科技“芯創杯”大賽專場人才對接會成功舉辦
- 兩岸高校音樂大賽《青春最強音》第三季總決賽在臺北舉辦
- 第十四屆全國大學生資訊保安競賽創新實踐能力賽(華中賽區)比賽成功舉辦
- 雪花演算法對System.currentTimeMillis()最佳化真的有用麼?演算法
- KRAFTON 將舉辦PUBG全球系列賽1(PGS1)Raft