Meta轉向火熱的AI賽道,晶片、產品化和配套追趕是難題

凌雲147258發表於2023-04-27

的內部郵件顯示,2022年夏季末,Meta執行長馬克·祖克伯(Mark Zuckerberg)曾召集他的主要助手,對Meta的計算能力進行了5個小時的分析討論,重點是Meta開展先進 ( )工作的能力。

根據內部郵件、公司公告,以及相關知情人士的透露,Meta面臨著一個棘手的問題:儘管在AI研究方面進行了大規模投資,但關於如何在主營業務中引入對AI友好的軟硬體系統,Meta進展緩慢。在Meta越來越依賴AI去支撐進一步增長的情況下,這影響了該公司推動全面創新的節奏。

這封來自Meta新任基礎設施負責人桑託什·賈納爾漢(Santosh Janardhan)的郵件顯示:“在針對AI的開發方面,我們在工具、工作流和流程方面明顯落後,需要在這方面進行大筆投資。”這封郵件於9月份釋出在Meta的內網,近期首.次被曝光。

郵件中還表示,支撐AI工作需要Meta“從根本上改變硬體基礎設施設計、軟體系統,以及提供穩定平臺的方法”。

在一年多時間裡,Meta正在開展一個龐大的專案,補足其AI基礎設施的短板。儘管Meta公開承認在AI的硬體發展上有些落後,但這方面的細節,包括算力壓力、管理層更迭和一個被放棄的AI 專案,此前從未被報導過。

對於這封郵件和相關的重組舉措,Meta發言人喬恩·卡維爾(Jon Carvill)表示,“憑藉在AI研究和工程開發方面深厚的專業知識,Meta在構建和部署最.先進的大規模基礎設施方面已經得到了證明”。

他表示:“隨著我們為應用和消費產品提供新的AI體驗,我們很有信心能繼續擴充基礎設施能力,以滿足短期和長期的需求。”

但對Meta放棄AI晶片專案的訊息,他拒絕回應。

 根據Meta披露的資訊,此次重組導致該公司的資本支出每季度增加了約40億美元,幾乎比2021年翻一番,並導致4個地點資料中心的建設計劃分別暫停或取消。

Meta還正面臨財務壓力。自去年11月以來,Meta啟動了自千禧年代網際網路破滅之後未曾有過的大規模裁員。

另一方面,微軟支援的OpenAI於去年11月30日釋出了ChatGPT,這一AI聊天機器人迅速成為有史以來使用者數增長最快的消費級應用,並引發了科技巨頭之間的AI軍備競賽。大型科技公司紛紛推出自己的生成式AI產品。這種AI除了可以識別資料中的模式之外,還能根據輸入資訊以類似人工的方式生成文字和視覺內容。

多名訊息人士稱,生成式AI消耗了大量算力,導致Meta更加迫切地需要擴大計算基礎設施。

1

曾對燒錢的專案投入不夠

訊息人士稱,問題的一大關鍵在於Meta很遲才開始在AI工作中引入GPU晶片。GPU非常適合AI計算,可以並行執行大量任務,大幅減少處理海量資料的耗時。當然,價格也更貴,市場份額的80%都在英偉達手裡。

所以,Meta很大程度上是靠CPU來承擔AI計算任務。CPU是計算機行業的主力晶片,在過去幾十年中遍佈全球的資料中心,但不太適合處理AI計算任務。

根據兩名訊息人士的說法,Meta還使用自主設計的訂製晶片來進行AI推理。然而到2021年,事實證明,採用CPU和訂製晶片在AI領域比GPU速度更慢、效率更低。此外,與Meta採用的晶片相比,GPU在執行不同型別的AI模型時也更具靈活性。

Meta拒絕對其AI晶片的效能置評。

訊息人士表示,隨著祖克伯推動Meta轉向元宇宙,算力壓力影響了Meta部署AI以應對競爭威脅的能力,例如社交媒體對手TikTok的崛起,以及蘋果主導的廣告隱私政策調整。

這些挫折也引起了Meta前董事會成員彼得·蒂爾(Peter Thiel)的注意。他於2022年初從Meta董事會辭職,但沒有做出任何解釋。

知情人士稱,在他辭職前的一次董事會會議上,蒂爾對Meta高管們表示,他們對Meta的核心社交媒體業務太自滿,而且對元宇宙太走火入魔。

2

轉而選擇GPU,但已落後

一名訊息人士稱,2022年,在取消了訂製推理晶片的大規模部署計劃後,Meta高管們轉而開始採購價值數十億美元的英偉達GPU。到這時,Meta已經明顯落後於谷歌等競爭對手。谷歌早在2015年就開始部署訂製版本的GPU,即TPU。

2022年春季,Meta高管還著手重組Meta的AI部門,任命了兩名新的工程負責人,包括9月份郵件的作者賈納爾漢。根據領英平臺上的資料以及知情人士的說法,在長達數月的動盪期內,十幾名管理者從Meta離職。MetaAI基礎設施的管理團隊幾乎被徹底更換。

接下來,Meta開始重新規劃資料中心基礎設施,以適應即將部署的GPU晶片。相比於CPU,GPU的耗電量和發熱量都更大,並且需要透過專門設計的網路連線大量晶片,形成叢集。

根據賈納爾漢的郵件以及訊息人士提供的資訊,這些設施需要24到32倍的網路容量,以及新的水冷系統來管理晶片叢集的散熱,因此相關設施需要“完全重新設計”。

隨著工作的推進,Meta制定了內部計劃,著手開發一種新的自主晶片。這種晶片可以像GPU一樣訓練AI模型並執行推理,目前計劃在2025年左右完成。

Meta發言人卡維爾表示,一些資料中心建設專案目前處於暫停狀態並將過渡到新設計,這些專案將於今年晚些時候重新啟動。他拒絕就Meta內部的晶片專案置評。

3

產品落地進展緩慢

在擴大GPU算力的過程中,Meta目前幾乎沒有任何新的產品技術可以展示。相比較之下,微軟和谷歌等公司正在推動生成式AI產品的公開商用(必應聊天、Bard等)。

今年2月,Meta首席財務官Susan Li承認目前沒有將太多算力投入到生成式AI。她表示,“我們所有的AI能力基本上都給了廣告、資訊流和短影片Reels”。

根據訊息人士的說法,直到去年11月ChatGPT推出後,Meta才開始重視生成式AI產品。他們表示, Facebook的AI實驗室FAIR雖然從2021年末就開始釋出相關技術的原型,但並沒有把研究轉化為產品。

隨著投資者興趣的提升,情況正在改變。2月,祖克伯宣佈成立一支頂.級生成式AI團隊,將“大幅推動”公司在該領域的工作。

Meta技術長Andrew Bosworth本月也表示,生成式AI是目前他和祖克伯花時間最多的領域,預計將在今年釋出一款相關產品。

兩名熟悉新團隊的人士表示,該團隊的工作處於早期階段,重點是構建基礎模型作為核心,未來可以針對不同產品需求進行調整。

Meta發言人卡維爾表示,一年多來,Meta的許多團隊都在開發生成式AI產品。他證實,在ChatGPT到來後的幾個月裡,這方面工作已經提速。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70029437/viewspace-2949229/,如需轉載,請註明出處,否則將追究法律責任。

相關文章