權威AI開源標準1.0版釋出:Llama也不算開源

机器之心發表於2024-10-29
大模型開源的口號,不是隨便說說的。

該來的終於來了。

本週,人工智慧領域迎來了對於「開源」的官方定義。開放原始碼促進會(Open Source Initiative,OSI)釋出了「開源 AI 定義」的 1.0 正式版。此舉旨在澄清 Open Source 這一術語在快速發展的科技領域中,經常出現的模糊用法。

值得關注的是在此機制下,一直以來開源大模型的標杆 Llama 3 也不符合本規則。
圖片
長期以來,OSI 一直為開源軟體的構成設定行業標準,但人工智慧系統包含傳統許可未涵蓋的元素,例如模型訓練資料。現在,要使 AI 系統被視為真正的開源系統,它必須提供:
  • 可訪問用於訓練 AI 的資料的詳細資訊,以便其他人可以理解和重新建立;

  • 用於構建和執行 AI 的完整程式碼;

  • 訓練中的設定和權重,幫助 AI 產生相應的結果。

這一定義直接直擊 Meta 推動的 Llama 大模型。雖然在生成式 AI 領域裡,Llama 一直被廣泛宣傳為最大的開源 AI 模型,Llama 的使用條款中支援公眾下載和使用,但其商業用途受到一定限制(對於擁有超過 7 億使用者的應用程式),且不提供對訓練資料的訪問,這導致其不符合 OSI 的無限制使用、修改和共享自由標準。

對此,Meta 發言人 Faith Eischen 對此表示,雖然「在很多事情上都同意合作伙伴 OSI 的觀點」,但 Meta 不同意這一定義。不應該設定單一的開源 AI 定義,人們此前對於開源的定義沒有涵蓋當今快速發展的 AI 模型的複雜性。

不過,無論技術的定義如何,Meta 表示仍將繼續與 OSI 和其他行業組織合作,以負責任的方式推動 AI 朝著可訪問和免費的方向發展。

在「開源」這件事上,非營利組織 OSI 一直扮演著重要的角色。OSI 維護了一個被業內認可的許可證列表,其定義的開源包括十餘個關鍵條款,如自由再分發、原始碼可獲得、允許修改和衍生作品等。自 1998 年定義「開源」標籤併成立以來,OSI 對開源軟體的定義已被開發人員廣泛接受。

如今,隨著人工智慧重塑格局,科技巨頭們面臨著一個關鍵選擇:是接受這些既定原則,還是拒絕它們。Linux 基金會最近也試圖定義「開源人工智慧」,這表明關於傳統開源價值觀如何適應人工智慧時代的爭論已日益激烈。
圖片
獨立研究員和開放原始碼建立者 Simon Willison 說:「既然我們已經有了一個強有力的定義,也許我們可以更積極地抵制那些『開源洗白(open washing)』並宣稱自己的工作是開源的公司。」

Hugging Face 執行長 Clément Delangue 稱:「 OSI 的定義對於圍繞人工智慧開放性展開討論有巨大幫助,特別是在涉及訓練資料的關鍵作用時。」

OSI 執行董事 Stefano Maffulli 表示,該公司花了兩年時間諮詢全球專家,透過與機器學習和自然語言處理的學界專家、哲學家、Creative Commons 的內容創作者等合作完善了這一定義。

OSI 對於開源 AI 的定義

OSI 表示,「開源」的人工智慧系統需要滿足以下幾點:
  • 可將系統用於任何目的,無需徵得許可;

  • 允許人們研究系統的工作原理並檢查其元件;

  • 允許人們為任何目的修改該系統,包括更改其輸出;

  • 人們可以出於任何目的,將系統共享給他人,無論是否經過修改。

這些自由既適用於功能齊全的系統,也適用於系統的離散元素。行使這些自由的先決條件是能夠對系統進行修改。

再進一步,對於機器學習系統可修改的形式,OSI 也進行了定義。必須包含以下所有元素:
  • 資料資訊:用於訓練系統的資料的足夠詳細的資訊,以便技術人員可以構建基本等效的系統。資料資訊應根據 OSI 批准的條款提供。特別是,必須包括:

  • 用於訓練的所有資料的完整描述,包括(如果使用)不可共享的資料,披露資料的來源、其範圍和特徵、資料的獲取和選擇方式,標籤程式、資料處理和過濾方法;

  • 所有公開可用的訓練資料的清單以及獲取這些資料的方式;

  • 可從第三方獲得的所有訓練資料的列表以及從何處獲取(包括付費)。

  • 程式碼:用於訓練和執行系統的完整原始碼。該程式碼應展示出如何處理和過濾資料以及如何進行訓練的完整規範。程式碼應在 OSI 批准許可下提供。

  • 例如,如果使用,則必須包括用於處理和過濾資料的程式碼、用於訓練的程式碼(包括使用的引數和設定)、驗證和測試、支援庫(如分詞器和超引數搜尋程式碼)、推理程式碼和模型架構。

  • 引數:模型引數,例如權重或其他配置。引數應根據 OSI 批准條款提供。

  • 例如,訓練中間階段的檢查點以及最佳化器狀態。

對於機器學習系統,模型權重也是一個重要因素。OSI 在開源定義中表述道:
  • AI 模型由模型架構、模型引數(包括權重)和執行模型的推理程式碼組成。

  • AI 權重是一組學習引數,以根據給定輸入生成輸出。

對機器學習系統進行修改的範圍也包括權重。「開源模型」和「開源權重」必須包括用於匯出這些引數的資料資訊和程式碼。

最後,OSI 表示,開源 AI 定義不需要特定的法律機制來確保模型引數可供所有人免費使用。它們可能本質上是免費的,或者可能需要許可證或其他法律文書來確保它們的可用。預計隨著時間的推移,法規對於 AI 開放的定義也將變得更加清晰。

參考內容:
https://opensource.org/ai/open-source-ai-definition
https://lfaidata.foundation/blog/2024/10/25/embracing-the-future-of-ai-with-open-source-and-open-science-models/
https://www.theverge.com/2024/10/28/24281820/open-source-initiative-definition-artificial-intelligence-meta-llama

相關文章