Amazon Bedrock の評価
カスタムモデルやインポートされたモデルなどの基盤モデルを評価して、ニーズに合ったモデルを見つけることができます。また、Amazon Bedrock のナレッジベースで、検索またはエンドツーエンドの RAG ワークフローを評価することもできます。
概要
Amazon Bedrock には、生成 AI アプリケーションの導入を促進するための評価ツールが用意されています。モデル評価により、ユースケースの基盤モデルを評価、比較、選択できます。取得関数または取得関数と生成機能を評価して、Amazon Bedrock ナレッジベースまたは独自のカスタム RAG システムに基づいて構築された RAG アプリケーションを本番環境用に準備しましょう。

評価のタイプ
エンドツーエンドの RAG ワークフローを評価
取得評価と生成評価を使用して、アプリケーションのエンドツーエンド検索拡張生成 (RAG) 機能を評価しましょう。生成されたコンテンツが正しく完全であり、ハルシネーションを抑えて責任ある AI の原則に従っていることを確認できます。Bedrock ナレッジベースのパフォーマンスを評価するか、カスタム RAG システムから独自の推論応答を用意します。Amazon Bedrock ナレッジベースでジャッジとして使用する LLM を選択するか、カスタム RAG 出力に使用する LLM を選択し、データセットをアップロードして、評価において最も重要なメトリクスを選択するだけです。

RAG システムからの完全かつ適切な取得を確実に行う
RAG 取得評価を使用して、Amazon Bedrock ナレッジベースやカスタム RAG システムのストレージと取得の設定を評価しましょう。取得したコンテンツに関連性があり、そのコンテンツがユーザークエリ全体をカバーしていることを確認できます。ジャッジとして使用する LLM を選択し、Bedrock ナレッジベースを選択して評価するか、カスタム RAG システム取得をプロンプトデータセットに含め、メトリクスを選択するだけです。

FM を評価して、ユースケースに最適なものを選択
Amazon Bedrock のモデル評価では、自動評価と人間による評価を使用して、特定のユースケースに合う FM を選択できます。自動 (プログラムによる) モデル評価では、厳選されたデータセットとカスタムデータセットを使用し、精度、堅牢性、毒性などの事前定義されたメトリクスを提供します。主観的なメトリクスの場合は、Amazon Bedrock を利用して、簡単ないくつかのステップを実行するだけで、人間による評価ワークフローを設定できます。人間による評価では、独自のデータセットを持ち込んで、関連性、スタイル、ブランドボイスとの整合性などのカスタム指標を定義できます。人間による評価ワークフローでは、自社の従業員をレビュー担当者としたり、AWS によって管理されるチームをエンゲージしたりして、人間による評価を行うことができます。この場合、AWS は熟練した評価者を関与させ、お客様に代わって完全なワークフローを管理します。また、LLM-as-a-Judge を使用すると、正確性、完全性、忠実性 (ハルシネーション) などのメトリクス、さらには回答拒否や有害性などの責任ある AI のメトリクスを使用して、データセットの質の高い評価を行えます。入力プロンプトデータセットに独自の推論応答を取り込むことで、Bedrock モデルやその他のモデルをどこでも評価できます。

複数の評価ジョブの結果を比較してすばやく意思決定を行う
評価で比較機能を使用することにより、プロンプト、評価中のモデル、カスタム RAG システムや Bedrock ナレッジベースに加えた変更の結果を確認できます。
