在科技行業,從來沒有出現一家屹立不倒的“百年老店”。比如,在網際網路時代,誰都不曾想在手機市場不可一世的諾基亞,最終卻日漸沒落,黯然退場。AI 時代來臨,為了避免被時代淘汰的命運,科技巨頭們開始在內部進行自我革新,希望突破自身發展瓶頸。而要想在 AI 領域做出一番成績,資料則是其不可或缺的基本要素,有一種說法是擁有了資料就擁有了未來,是這樣嗎?
此前,Google 釋出了一項人工智慧研究報告,其結果提醒我們當前 AI 繁榮期的重要業務動態。消費者和經濟都越來越依賴科技公司的生態系統,而它也一直被認為是通過內部瓦解而保持創新和非壟斷的,在這一過程中小型公司也因此得以顛覆大企業。 不過,當科技競爭取決於由大量資料所驅動的機器學習系統時,超越科技巨頭可能變得比以往更為困難。
在星期一,Google 釋出的新論文預印本描述了與卡內基梅隆大學(CMU)的一次“昂貴”的合作。他們的影像識別實驗花了兩個月將 50 個強大的圖形處理器整合在一起,並且前所未有的使用了 3 億張標記影像集(影像識別中的大量工作使用了僅 100 萬張標準影像集)。該專案旨在測試是否可以為其提供更多資料的方式來獲得更為精準的影像識別,而並非通過調整現有演算法。
答案是肯定的。在 Google 和 CMU 的研究人員用他們新的資料集訓練了標準影像處理系統後,他們發現,它在多個標準測試中產生了新的最先進的結果,以便軟體可以解讀影像,例如檢測照片中的物體。他們抽取的資料量與影像識別演算法展現出的準確性之間存在明確相關性。這一發現有助於澄清人工智慧研究領域盛傳的一個問題,即是否可以通過提供更多的資料,從而讓現有演算法“擠”出更多資料。
實驗表明,擁有海量資料在很大程度上甚至等同於具有更強的實力,這也意味著像 Google,Facebook 或微軟這樣有海量資料的技術巨頭可能會獲取比以前更大的好處。然而,Google 的 3 億張龐大影像資料集並不會產生巨大的效益——從 1 百萬張影像增長到 3 億張影像,物體檢測評分只增長了 3 個百分點。但該論文的作者卻認為,他們可以調整軟體以使其更匹配超大型資料集,從而來擴大這種優勢。即便事實證明並非如此,但在科技行業中,一點微小的優勢也很重要。例如,自動駕駛汽車視覺的準確性每提高一點都將是至關重要的,而對於一個可能有數十億美元收入的產品而言,效率也將會得到很大提升。
對以 AI 為中心的公司而言,收集資料已然成為了一種防禦性策略。Google、微軟等公司都開源了很多軟體——甚至是硬體設計,但卻很少開放使這些工具起作用的資料。
據雷鋒網瞭解,在宣佈開源 TensorFlow AI 引擎時,Google 就曾表示,對 AI 而言,真正的價值並不在於軟體或演算法,而在於使其更加智慧化所需的資料。Google 也許會放棄其他內容,但必定會保留資料,至少目前是這樣。
不過,科技巨頭也確實公開了一些資料。去年,Google 公開了一個有超過 700 多萬條 YouTube 視訊的龐大資料集,而 Salesforce 也開放了維基百科,以促進演算法來分析語言。但是,AI 開發實驗室 Manifold 的合夥人和勞倫斯伯克利國家實驗室(Lawrence Berkeley National Lab)的訪問研究員 Luke de Oliveira 表示,這種開放對潛在的競爭對手來說通常不會產生太大的價值。“這些資料集對產品能維持其市場地位來說從來無關緊要。”他說道。
在雲端計算興起之後,像 Amazon 和微軟這樣的公司都可使用網路強大的處理能力。但最豐富的資料仍然被 Google 和 Facebook 等巨頭們攥在手裡,有近數十億人使用它們的服務,包括從文字到圖片,視訊到語音等豐富的交流資訊。它們都在努力建立強大的 AI 軟體,但它們真正的競爭優勢在於擁有大量高品質的資料,它們可以利用這些資料來教會軟體像人一樣思考。
Google 和 CMU 的研究人員表示,對那些經過處理的有價值的海量資料,他們希望用自己最新的研究來幫助建立更具“Google 規模”的開放影像資料集。“我們真誠希望可以讓視覺領域相關人士不要低估資料,我們可以通過集體努力來構建更大的資料集。”他們這樣寫道。負責這項研究的 Abhinav Gupta 認為,他們的其中一個選擇是與通用視覺資料基金會(Common Visual Data Foundation)合作,它是由 Facebook 和微軟發起的非營利性組織,目前已經開放了影像資料集。
與此同時,資料匱乏的公司要想在一個希望演算法變得更智慧的擁有豐富資料的巨頭們夾縫中生存下去,它們必須要富有創造性。DataRobot 的執行長 Jeremy Achin 猜測,隨著機器學習在很多公司和行業變得愈加重要,比如,在保險行業中,小公司收集的資料使其風險預測能力可以與大公司進行競爭,這種模式可能會受到廣泛關注。
在機器學習免於資料匱乏後,這種進步可以顛覆 AI 的資料經濟性。去年,Uber 為此收購了一家 AI 公司,但現在它也可能嘗試迴避 AI 從業者的資料優勢。Fast.ai——一家致力於使機器學習變得觸手可及的公司——其聯合創始人 Rachel Thomas 認為,初創公司通常能夠將機器學習應用在網際網路巨頭們目不能及的領域(如農業)。“我不確定這些大企業是否在任何地方都有巨大的優勢,但在很多特定領域,現在還沒有人去收集到任何資料。”她說道。即便是人工智慧領域的巨頭,也有其盲點存在。
來自:雷鋒網編譯自 Wierd