我很高興能夠告訴大家，現在可以用來評估、比較和選擇適合您的用例的基礎模型了。Amazon Bedrock 中的模型評估現已推出預覽版。

Amazon Bedrock 提供自動評估和人工評估兩種選擇。您可以使用預定義的準確性、穩定性和惡意內容等指標進行自動評估，也可以設定友好度、風格和與品牌聲音的一致性等主觀或自定義指標，只需點選幾下，即可設定人工評估工作流。

模型評估在開發的各個階段都至關重要。作為開發人員，您現在可以用評估工具來構建生成式人工智慧應用程式。您可以先在平臺環境中試驗不同的模型。可新增模型自動評估功能，加快迭代速度。到準備首次釋出或限量釋出時，再加入人工審查，幫助確保質量。

下面為您簡要介紹 Amazon Bedrock 中的模型評估。

自動模型評估

自動模型評估時，您可以自帶資料，也可以使用內建精選資料集和預定義指標來完成特定任務，例如內容摘要、問答、文字分類和文字生成。如此一來，免除了設計和執行自有模型評估基準等繁重工作。欲開始使用，請導航到，然後在左側選單中選擇評估與部署下的模型評估。建立新的模型評估並選擇自動。

螢幕截圖 2023-12-26 205122.png

接下來，根據設定對話方塊的內容，選擇要評估的基礎模型和任務型別，例如文字摘要。選擇評估指標並指定資料集，可以是內建資料集，也可以是您自己的資料集。

如果您自帶資料集，請確保該資料集採用格式，且每行都包含您想要評估的模型維度的所有鍵值對。例如，如果要評估有關問答任務的模型，則資料如下格式化（其中　 category 是可選的）：

{"referenceResponse":"Cantal","category":"Capitals","prompt":"Aurillac is the capital of"}{"referenceResponse":"Bamiyan Province","category":"Capitals","prompt":"Bamiyan city is the capital of"}{"referenceResponse":"Abkhazia","category":"Capitals","prompt":"Sokhumi is the capital of"}...複製程式碼

然後，建立並執行評估作業，瞭解模型的特定任務效能。評估作業完成後，就可以在模型評估報告中檢視評估結果。

螢幕截圖 2023-12-26 205255.png

人工模型評估

人工評估時，只需點選幾下，Amazon Bedrock 就會為您設定人工審查工作流。您可以自帶資料集並定義自定義評估指標，如相關性、風格或與品牌聲音的一致性，還可以選擇自己的內部團隊擔任審查員，或者聘請亞馬遜雲科技託管團隊進行評估。如此一來，免除了構建和操作人工評估工作流程等繁瑣工作。

欲開始使用，請建立一個新的模型評估並選擇人工：自帶團隊或人工：亞馬遜雲科技託管團隊。

如果您選擇亞馬遜雲科技託管團隊進行人工評估，請說明模型評估需求，包括任務型別、工作團隊的專業知識、提示的大致數量以及聯絡資訊。之後，亞馬遜雲科技專家將與您聯絡，詳細討論您的模型評估專案要求。審查後，該團隊將提供一份定製報價和專案時間表。

如果您選擇自帶團隊，請根據設定對話方塊的內容，選擇要評估的基礎模型和任務型別，例如文字摘要。然後，選擇評估指標，上傳測試資料集，並組建工作團隊。

要進行人工評估，您可以將之前顯示的示例資料再次格式化為如下所示的 JSON Lines 格式（其中　 category 和 referenceResponse 是可選的）：

{"prompt":"Aurillac is the capital of","referenceResponse":"Cantal","category":"Capitals"}{"prompt":"Bamiyan city is the capital of","referenceResponse":"Bamiyan Province","category":"Capitals"}{"prompt":"Senftenberg is the capital of","referenceResponse":"Oberspreewald-Lausitz","category":"Capitals"}複製程式碼

人工評估完成後，Amazon Bedrock 會生成一份評估報告，內容包含模型相對於您所選指標的效能。

須知事項

下面介紹一些重要的須知事項：

模型支援——在預覽版期間，您可以評估和比較 Amazon Bedrock 上可用的基於文字的大型語言模型（LLM）。在此期間，使用自己的團隊進行模型評估時，可以為每個自動評估作業選擇一個模型，為每個人工評估作業選擇最多兩個模型；而使用亞馬遜雲科技託管團隊進行人工評估時，可以指定自定義專案要求。

定價——在預覽版期間，亞馬遜雲科技只對執行評估所需的模型推理收費（對處理後的輸入和輸出詞元，按需定價）。不會對人工評估或自動評估單獨收費。Amazon Bedrock 定價提供所有詳細資訊。

申請試用預覽

自動評估和使用自己的工作團隊的人工評估現已在亞馬遜雲科技商業服務區域美國東部（弗吉尼亞州北部）和美國西部（俄勒岡州）推出公開預覽版。使用亞馬遜雲科技託管團隊的人工評估現已在亞馬遜雲科技商業服務區域美東區（弗吉尼亞州北部）推出公開預覽版。欲瞭解更多資訊，請訪問 Amazon Bedrock 開發人員體驗網頁並檢視。

開始使用

登入，立即開始探索 Amazon Bedrock 中的模型評估！

文章來源： https://aws.amazon.com/blogs/aws/evaluate-compare-and-select-the-best-foundation-models-for-your-use-case-in-amazon-bedrock-preview?trk=cndc-detail/

—

作者 Antje Barth

Antje Barth 是亞馬遜雲科技生成式人工智慧的首席開發推廣師。她是 O’Reilly 著作《亞馬遜雲科技上的生成式人工智慧》和《亞馬遜雲科技上的資料科學》的合著者。 Antje 經常在世界各地的人工智慧/機器學習會議、活動和聚會上發表演講。她還是杜塞爾多夫大資料女性分會的聯合創始人之一。

使用 Amazon Bedrock（預覽版），評估、比較和選擇適合您的用例的基礎模型

自動模型評估

人工模型評估

須知事項

申請試用預覽

開始使用

相關文章