大模型開源的口號,不是隨便說說的。
可訪問用於訓練 AI 的資料的詳細資訊,以便其他人可以理解和重新建立;
用於構建和執行 AI 的完整程式碼;
訓練中的設定和權重,幫助 AI 產生相應的結果。
可將系統用於任何目的,無需徵得許可;
允許人們研究系統的工作原理並檢查其元件;
允許人們為任何目的修改該系統,包括更改其輸出;
人們可以出於任何目的,將系統共享給他人,無論是否經過修改。
資料資訊:用於訓練系統的資料的足夠詳細的資訊,以便技術人員可以構建基本等效的系統。資料資訊應根據 OSI 批准的條款提供。特別是,必須包括:
用於訓練的所有資料的完整描述,包括(如果使用)不可共享的資料,披露資料的來源、其範圍和特徵、資料的獲取和選擇方式,標籤程式、資料處理和過濾方法;
所有公開可用的訓練資料的清單以及獲取這些資料的方式;
可從第三方獲得的所有訓練資料的列表以及從何處獲取(包括付費)。
程式碼:用於訓練和執行系統的完整原始碼。該程式碼應展示出如何處理和過濾資料以及如何進行訓練的完整規範。程式碼應在 OSI 批准許可下提供。
例如,如果使用,則必須包括用於處理和過濾資料的程式碼、用於訓練的程式碼(包括使用的引數和設定)、驗證和測試、支援庫(如分詞器和超引數搜尋程式碼)、推理程式碼和模型架構。
引數:模型引數,例如權重或其他配置。引數應根據 OSI 批准條款提供。
例如,訓練中間階段的檢查點以及最佳化器狀態。
AI 模型由模型架構、模型引數(包括權重)和執行模型的推理程式碼組成。
AI 權重是一組學習引數,以根據給定輸入生成輸出。