開源與自研的“戰火”在大模型時代重燃

danny_2018發表於2023-11-20

這幾天朋友圈異常熱鬧,導火索來自前阿里AI科學家賈揚清的一則訊息,他說某國產大模型抄襲了META 的LLaMA架構,並且只換了幾個變數名稱就說成是自研,譴責這種行為沒有底線。就在很多人拿著國產大模型一對一比對,猜測是哪家公司這麼幹的時候,“肇事者”終於“浮出了水面”,原來是創新工場董事長兼 CEO 李開復推出的“零一萬物”(Yi-34B)。

關於抄襲的“大鍋”

有國外開發者直接點名,在零一萬物的Hugging Face開源主頁上,開發者ehartford質疑稱該模型使用了META LLaMA的架構,只修改了兩個tensor(張量)。零一萬物曾在幾天前表述,最新發布的開源大模型Yi-34B效能卓越,一鳴驚人。該公司有衝進第一陣營的初心和決心,擁有可以對標 OpenAI、Google等一線大廠的團隊。抄襲事件出來以後, 零一萬物公開致歉,並表示會在各開源平臺重新提交模型及程式碼,補充LLaMA 協議副本的流程,儘速完成各開源社群的版本更新。

很明顯,零一萬物光明正大地承認自己在模型訓練過程中,沿用了GPT/LLaMA的基本架構,正是因為LLaMA社群在開源上的貢獻,使得零一萬物可以快速起步。

至此,我們不去評價功過是非,當所有國內大模型都鬆了一口氣,慶幸這口“鍋”沒砸在自己的頭上時,關於開源與自研的問題再次引起爭議。

其實,在之前的軟體時代,國產軟體的自主創新能力就遭遇過質疑。由於我國基礎軟體基礎薄弱,起步較晚,我們最早大量採用開源,導致我們的軟體被稱為是“開源套殼”。的確,國產軟體在研發過程中,確實存在著一部分功能採用歐美企業軟體來實現,導致我們現在還在受這些企業的專利限制,並支付專利費用。事實上,在全球化科技環境中,跨國競爭與合作是一種常態,各種技術創新都建立在前人實踐的成果之上。換言之,開源的使用並不意味著缺乏自主創新能力,而是基於社群可靠性和廣泛性支援,可以幫助更多企業構建更穩定的應用。

只不過,不管你是開源的玩法,還是選擇自研創新,都要遵守遊戲規則。你是怎樣一種狀況,就要清清楚楚告訴使用者,尊重各自的勞動成果,這是一家企業最基本的行為準則。

開源,還是閉源?

從去年底開始,國內外均以肉眼可見的速度奔向大模型,各種文生文、文生圖、文生影片等應用,如雨後春筍般誕生,這背後開源的基礎架構帶來了強大的推動力。因為,有了開源的資料、演算法和框架,其他企業就不用重複造輪子,可以讓科技創新更高效。那麼,到底如何評價一個模型是不是自研?業內有一種說法是,如果你採用的演算法和框架是自己實現的,同時資料是自己收集、清洗的,那就算自研;如果其中三項均來自開源,那就不能被認為是自研。

需要特別注意的是,在開源環境下,模型的自研性並不是唯一的考量標準,還需要考慮模型的實用性、效能和可靠性等因素。所以,如果你使用了開源的框架,同時遵守了開源社群的規範和準則,不侵犯他人智慧財產權,並且儘可能回饋給開源社群,促進開源社群的發展,那這個模型就可以被認定為是自研。

事實上,當大模型開始狂飆,很多企業都在這個問題上糾結過。有了開源,我們還需要自研嗎?最終,大多數企業的選擇都是同一個,那就是隻能借鑑,不能全盤照抄!模型訓練不是開黑盒,只要做不到完全透明,就存在安全風險。

目前,大模型正在向各個行業和企業滲透,比如:金融行業的資訊評估預測、醫療行業的影像分析和藥物研發、零售行業的銷售分析和市場預測、製造業的生產資料分析和排程計劃等,都會受到前所未有的影響,我們必須要構建出屬於自己的可以自主可控的模型,才能擁有最終話語權。

現實情況是,對於很多網際網路大廠來說,如果沒有自己的大模型生態,那意味著未來的發展會受阻,甚至出局,所以大模型是必選項。而一些小企業,則依附更大的生態來發展自己垂直領域的模型。所以,大模型看起來非常熱鬧,已經演變成“百模之爭、千模大戰”,但背後的競爭也會更加殘酷。對於每一個入局的玩家而言,只有找準“賽點”,才能在白熱化的競爭中存活下來。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31547898/viewspace-2996120/,如需轉載,請註明出處,否則將追究法律責任。