開源與自研的“戰火”在大模型時代重燃
這幾天朋友圈異常熱鬧,導火索來自前阿里AI科學家賈揚清的一則訊息,他說某國產大模型抄襲了META 的LLaMA架構,並且只換了幾個變數名稱就說成是自研,譴責這種行為沒有底線。就在很多人拿著國產大模型一對一比對,猜測是哪家公司這麼幹的時候,“肇事者”終於“浮出了水面”,原來是創新工場董事長兼 CEO 李開復推出的“零一萬物”(Yi-34B)。
關於抄襲的“大鍋”
有國外開發者直接點名,在零一萬物的Hugging Face開源主頁上,開發者ehartford質疑稱該模型使用了META LLaMA的架構,只修改了兩個tensor(張量)。零一萬物曾在幾天前表述,最新發布的開源大模型Yi-34B效能卓越,一鳴驚人。該公司有衝進第一陣營的初心和決心,擁有可以對標 OpenAI、Google等一線大廠的團隊。抄襲事件出來以後, 零一萬物公開致歉,並表示會在各開源平臺重新提交模型及程式碼,補充LLaMA 協議副本的流程,儘速完成各開源社群的版本更新。
很明顯,零一萬物光明正大地承認自己在模型訓練過程中,沿用了GPT/LLaMA的基本架構,正是因為LLaMA社群在開源上的貢獻,使得零一萬物可以快速起步。
至此,我們不去評價功過是非,當所有國內大模型都鬆了一口氣,慶幸這口“鍋”沒砸在自己的頭上時,關於開源與自研的問題再次引起爭議。
其實,在之前的軟體時代,國產軟體的自主創新能力就遭遇過質疑。由於我國基礎軟體基礎薄弱,起步較晚,我們最早大量採用開源,導致我們的軟體被稱為是“開源套殼”。的確,國產軟體在研發過程中,確實存在著一部分功能採用歐美企業軟體來實現,導致我們現在還在受這些企業的專利限制,並支付專利費用。事實上,在全球化科技環境中,跨國競爭與合作是一種常態,各種技術創新都建立在前人實踐的成果之上。換言之,開源的使用並不意味著缺乏自主創新能力,而是基於社群可靠性和廣泛性支援,可以幫助更多企業構建更穩定的應用。
只不過,不管你是開源的玩法,還是選擇自研創新,都要遵守遊戲規則。你是怎樣一種狀況,就要清清楚楚告訴使用者,尊重各自的勞動成果,這是一家企業最基本的行為準則。
開源,還是閉源?
從去年底開始,國內外均以肉眼可見的速度奔向大模型,各種文生文、文生圖、文生影片等應用,如雨後春筍般誕生,這背後開源的基礎架構帶來了強大的推動力。因為,有了開源的資料、演算法和框架,其他企業就不用重複造輪子,可以讓科技創新更高效。那麼,到底如何評價一個模型是不是自研?業內有一種說法是,如果你採用的演算法和框架是自己實現的,同時資料是自己收集、清洗的,那就算自研;如果其中三項均來自開源,那就不能被認為是自研。
需要特別注意的是,在開源環境下,模型的自研性並不是唯一的考量標準,還需要考慮模型的實用性、效能和可靠性等因素。所以,如果你使用了開源的框架,同時遵守了開源社群的規範和準則,不侵犯他人智慧財產權,並且儘可能回饋給開源社群,促進開源社群的發展,那這個模型就可以被認定為是自研。
事實上,當大模型開始狂飆,很多企業都在這個問題上糾結過。有了開源,我們還需要自研嗎?最終,大多數企業的選擇都是同一個,那就是隻能借鑑,不能全盤照抄!模型訓練不是開黑盒,只要做不到完全透明,就存在安全風險。
目前,大模型正在向各個行業和企業滲透,比如:金融行業的資訊評估預測、醫療行業的影像分析和藥物研發、零售行業的銷售分析和市場預測、製造業的生產資料分析和排程計劃等,都會受到前所未有的影響,我們必須要構建出屬於自己的可以自主可控的模型,才能擁有最終話語權。
現實情況是,對於很多網際網路大廠來說,如果沒有自己的大模型生態,那意味著未來的發展會受阻,甚至出局,所以大模型是必選項。而一些小企業,則依附更大的生態來發展自己垂直領域的模型。所以,大模型看起來非常熱鬧,已經演變成“百模之爭、千模大戰”,但背後的競爭也會更加殘酷。對於每一個入局的玩家而言,只有找準“賽點”,才能在白熱化的競爭中存活下來。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31547898/viewspace-2996120/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 《Disorder》戰火重燃,11月29日雙端測試開啟!
- 阿里、騰訊、位元組系網文戰火重燃阿里
- 大模型時代的AI之變與開發之根大模型AI
- 大模型時代:智慧設計的機遇與挑戰(附下載)大模型
- 軍團集結戰火重燃 《小小軍團2》先行測試今日開啟
- 戰火重燃!西湖論劍·2022中國杭州網路安全技能大賽正式啟動
- 大模型開啟人工智慧的新時代大模型人工智慧
- 實時操控才是硬道理《戰爭與征服》重燃你的競技熱血!
- 戰火重燃,征程再起!網易遊戲學院X《率土之濱》高校原畫大賽正式開啟遊戲
- 二測定檔3月18日 《拔劍稱王》重燃戰火
- 實時化與Serverless是開源大資料3.0時代的必然選擇Server大資料
- 資料庫春秋戰國時代,憑藉開源策略能否殺出重圍?資料庫
- Llama成大模型頂流,祖克伯掀論戰:玩開源,時代變了大模型
- 又一大模型技術開源!網易有道自研RAG引擎QAnything正式開放下載大模型
- 騰訊PCG自研高效能大語言模型推理引擎「一念LLM」正式開源模型
- 大模型的「狂飆時代」,以開源之力推動「新Linux底層作業系統」大模型Linux作業系統
- 傳承電競精神重燃電競戰火,ECL電子競技冠軍聯賽在成都正式啟動
- AI時代:大模型開發framework之langchain和huggingface大模型FrameworkLangChain
- 大模型步入「推理Scaling」時代,SambaNova如何挑戰英偉達的霸主地位?大模型Samba
- 歡迎 Llama 3:Meta 的新一代開源大語言模型模型
- 大模型開源專案大模型
- 開源視覺大模型視覺大模型
- 阿里開源 支援10萬億模型的自研分散式訓練框架EPL(Easy Parallel Library)阿里模型分散式框架Parallel
- 【重磅乾貨】大模型時代,開發者雲上成長指南大模型
- 【布客技術評論】大模型開源與閉源:原因、現狀與前景大模型
- 完美世界助力TI9戰火燃燒 開幕式盡顯中國元素
- 我們自研的 Ice 規則引擎開源了
- 大模型時代,中關村科金的蛻變大模型中關村
- 大模型時代進入尾聲:場景式模型接棒大模型
- ASC戰火點燃:28支戰隊向最高榮譽發起衝擊
- 資訊檢索&FAQ硬核技術!飛槳開源百度自研SimNet模型模型
- 開源協助平臺工程靈活應對多雲時代的挑戰
- 在大語言模型時代,AI Chatbots下一步將走向何方?模型AI
- 螞蟻自研資料庫OceanBase首次闡述戰略:繼續堅持自研開放之路 開源300萬行核心程式碼資料庫
- 螞蟻自研資料庫 OceanBase 首次闡述戰略:繼續堅持自研開放之路 開源300萬行核心程式碼資料庫
- c++製作的植物大戰殭屍,開源,一代二代結合遊戲C++遊戲
- AI大模型時代下運維開發探索第二篇:基於大模型(LLM)的資料倉儲AI大模型運維
- 爬蟲在大資料時代的應用爬蟲大資料