在科技公司爭相延攬人工智慧領域頂尖人才之際,雅虎公司(Yahoo! Inc. ,YHOO)做出了驚人之舉:公佈了有關其使用者使用雅虎服務方面的海量資料。
週四,這家陷入困境的網際網路公司稱,將公佈歷來規模最大的一批網際網路行為資料──約2,000萬匿名使用者在雅虎的運動、金融、新聞、房地產和其他頁面的點選、瀏覽和翻頁等行為的資訊。這批資料只供大學使用,預計將給研究人員提供海量使用者線上行為的罕見真實資訊。
雅虎公司在多年來增長乏力後,正面臨人才流失的窘境。該公司希望吸引人工智慧這一高速增長而競爭激烈領域的研究人員。
當前,科技公司競相加強與學術界的聯絡,特別是在機器學習和深度學習等人工智慧領域。這些技術通過訓練機器挖掘海量資料,從而讓後者能夠應答覆雜問題或做出預測。Facebook Inc.(FB)和谷歌(Google)都招聘了頂尖研究人員。比如,2013年加盟Facebook的Yann LeCun仍然是紐約大學(New York University)資料科學中心的主任。
卡內基梅隆大學(Carnegie Mellon University)電腦科學院院長摩爾(Andrew Moore)稱,無論擁有多少人才,老闆還想要更多;這些大型科技公司總是感覺沒有足夠人才去做其想做的事情。
機器學習需要大量的資料,計算機從中發現複雜的模式,並算出結果,以雅虎提供的資料為例,計算機可以發現下午7時30分住在南達科他州拉皮德城的十幾歲女孩會被那類新聞標題或設計特點所吸引。在大型網際網路公司之外,此類資料十分稀少,而且嚴格保密,因其可能會暴露公司的業務情況。雅虎的這批資料共有13.5TB,約相當於國會圖書館資料規模的三分之二。
曾擔任谷歌(Google)高管的摩爾表示,與絕大多數學術性電腦科學家能夠獲得的任何資料相比,這批資料的規模都要大得多,而且多到可能需要儲存在大學系統之外,或許是亞馬遜公司(Amazon.com, AMZN)或Alphabet Inc. (GOOG)旗下谷歌運營的雲端計算服務中心。卡內基梅隆大學去年與雅虎公司簽署了1,000萬美元的五年期合作協議,將根據使用者資料開發個性化應用。