使用 Amazon Bedrock(預覽版),評估、比較和選擇適合您的用例的基礎模型
我很高興能夠告訴大家, 現在可以用來評估、比較和選擇適合您的用例的基礎模型了。Amazon Bedrock 中的模型評估現已推出預覽版。
Amazon Bedrock 提供自動評估和人工評估兩種選擇。您可以使用預定義的準確性、穩定性和惡意內容等指標進行自動評估,也可以設定友好度、風格和與品牌聲音的一致性等主觀或自定義指標,只需點選幾下,即可設定人工評估工作流。
模型評估在開發的各個階段都至關重要。作為開發人員,您現在可以用評估工具來構建生成式人工智慧應用程式。您可以先在平臺環境中試驗不同的模型。可新增模型自動評估功能,加快迭代速度。到準備首次釋出或限量釋出時,再加入人工審查,幫助確保質量。
下面為您簡要介紹 Amazon Bedrock 中的模型評估。
自動模型評估
自動模型評估時,您可以自帶資料,也可以使用內建精選資料集和預定義指標來完成特定任務,例如內容摘要、問答、文字分類和文字生成。如此一來,免除了設計和執行自有模型評估基準等繁重工作。 欲開始使用,請導航到 ,然後在左側選單中選擇評 估與部署下的 模型評估。建立新的模型評估並選擇 自動。
接下來,根據設定對話方塊的內容,選擇要評估的基礎模型和任務型別,例如文字摘要。選擇評估指標並指定資料集,可以是內建資料集,也可以是您自己的資料集。
如果您自帶資料集,請確保該資料集採用
格式,且每行都包含您想要評估的模型維度的所有鍵值對。例如,如果要評估有關問答任務的模型,則資料如下格式化(其中
category
是可選的):
{"referenceResponse":"Cantal","category":"Capitals","prompt":"Aurillac is the capital of"}{"referenceResponse":"Bamiyan Province","category":"Capitals","prompt":"Bamiyan city is the capital of"}{"referenceResponse":"Abkhazia","category":"Capitals","prompt":"Sokhumi is the capital of"}...複製程式碼
然後,建立並執行評估作業,瞭解模型的特定任務效能。評估作業完成後,就可以在模型評估報告中檢視評估結果。
人工模型評估
人工評估時,只需點選幾下,Amazon Bedrock 就會為您設定人工審查工作流。您可以自帶資料集並定義自定義評估指標,如相關性、風格或與品牌聲音的一致性,還可以選擇自己的內部團隊擔任審查員,或者聘請亞馬遜雲科技託管團隊進行評估。如此一來,免除了構建和操作人工評估工作流程等繁瑣工作。
欲開始使用,請建立一個新的模型評估並選擇 人工: 自帶團隊或人工: 亞馬遜雲科技託管團隊。
如果您選擇亞馬遜雲科技託管團隊進行人工評估,請說明模型評估需求,包括任務型別、工作團隊的專業知識、提示的大致數量以及聯絡資訊。之後,亞馬遜雲科技專家將與您聯絡,詳細討論您的模型評估專案要求。審查後,該團隊將提供一份定製報價和專案時間表。
如果您選擇自帶團隊,請根據設定對話方塊的內容,選擇要評估的基礎模型和任務型別,例如文字摘要。然後,選擇評估指標,上傳測試資料集,並組建工作團隊。
要進行人工評估,您可以將之前顯示的示例資料再次格式化為如下所示的 JSON Lines 格式(其中
category
和
referenceResponse
是可選的):
{"prompt":"Aurillac is the capital of","referenceResponse":"Cantal","category":"Capitals"}{"prompt":"Bamiyan city is the capital of","referenceResponse":"Bamiyan Province","category":"Capitals"}{"prompt":"Senftenberg is the capital of","referenceResponse":"Oberspreewald-Lausitz","category":"Capitals"}複製程式碼
人工評估完成後,Amazon Bedrock 會生成一份評估報告,內容包含模型相對於您所選指標的效能。
須知事項
下面介紹一些重要的須知事項:
模型支援——在預覽版期間,您可以評估和比較 Amazon Bedrock 上可用的基於文字的大型語言模型(LLM)。在此期間,使用自己的團隊進行模型評估時,可以為每個自動評估作業選擇一個模型,為每個人工評估作業選擇最多兩個模型;而使用亞馬遜雲科技託管團隊進行人工評估時,可以指定自定義專案要求。
定價——在預覽版期間,亞馬遜雲科技只對執行評估所需的模型推理收費(對處理後的輸入和輸出詞元,按需定價)。不會對人工評估或自動評估單獨收費。Amazon Bedrock 定價提供所有詳細資訊。
申請試用預覽
自動評估和使用自己的工作團隊的人工評估現已在亞馬遜雲科技商業服務區域美國東部(弗吉尼亞州北部)和美國西部(俄勒岡州)推出公開預覽版。使用亞馬遜雲科技託管團隊的人工評估現已在亞馬遜雲科技商業服務區域美東區(弗吉尼亞州北部)推出公開預覽版。欲瞭解更多資訊,請訪問 Amazon Bedrock 開發人員體驗網頁並檢視 。
開始使用
登入 ,立即開始探索 Amazon Bedrock 中的模型評估!
—
原文作者:亞馬遜雲開發者;連結:https://blog.itpub.net/31545808/viewspace-3002472/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Python和Web前端選擇哪個比較合適?PythonWeb前端
- Anthropic Claude 3 Opus基礎模型在Amazon Bedrock上正式可用模型
- 替代helpcrunch的10大產品對比:找到最適合您的選擇
- 初學程式語言,選擇python和Java哪個比較合適?PythonJava
- Python和Web前端選擇哪個比較合適?哪個前景好?PythonWeb前端
- Redis基礎篇(五)AOF與RDB比較和選擇策略Redis
- 如何選擇最適合您的代理提供商?
- 選擇適合你的海外代理:Luminati、Oxylabs和Smartproxy測評
- 【機器學習】第二節-模型評估與選擇-效能度量、方差與偏差、比較檢驗機器學習模型
- 伺服器如何選擇合適的IO模型伺服器模型
- 企業選擇哪款SSL證書比較合適?挑選建議
- 【模型評估與選擇】sklearn.model_selection.KFold模型
- 怎樣選擇最合適的Linux發行版?23個版本橫向對比,總有適合你的Linux
- 如何為您選擇合適的製造執行系統(MES)?
- 如何選擇更適合你的 Linux 發行版?Linux
- 為應用選擇合適的同步高速SRAM
- 適合您的崗位資訊一覽
- 如何選擇適合大學使用的郵箱
- 亞馬遜雲科技宣佈:Claude 3 Opus基礎模型在Amazon Bedrock上正式可用亞馬遜模型
- 小企業選擇什麼樣的CRM系統比較合適,有什麼特點?
- 1、擬合、預測、估算器、管道與模型評估模型
- 如何選擇評估 JS 庫JS
- 如何選擇合適的 BI 工具?
- 使用這 7 個績效評估模板簡化您的員工評估
- 適合大規模分散式培訓的專用基礎架構 Amazon SageMaker HyperPod 上市分散式架構
- 中小團隊選擇一款合適的測試用例管理工具
- 與Anthropic加深合作 Amazon Bedrock再添Claude 3模型模型
- 如何選擇合適的移動應用測試工具?
- 如何選擇適合的美顏SDK?
- 如何選擇合適的建站系統
- 【模型評估與選擇】交叉驗證Cross-validation: evaluating estimator performance模型ROSORM
- 機器學習-學習筆記(二) --> 模型評估與選擇機器學習筆記模型
- 在選擇開源時需要基於自身需求選擇合適的開源協議協議
- 嵌入式應用選擇合適的微控制器
- Linux有哪些版本?哪個比較適合新手使用?Linux
- 如何選擇合適的NoSQL資料庫SQL資料庫
- 選擇適合的型別判斷方式型別
- 如何選擇合適自己的伺服器伺服器