Amazon-Bedrock-Bewertungen

Evaluieren Sie Basismodelle, einschließlich benutzerdefinierter und importierter Modelle, um Modelle zu finden, die Ihren Anforderungen entsprechen. Sie können Ihren Abruf- oder umfassenden RAG-Workflow auch in den Amazon-Bedrock-Wissensdatenbanken auswerten.

Übersicht

Amazon Bedrock bietet Ihnen Evaluierungstools, mit denen Sie die Einführung generativer KI-Anwendungen beschleunigen können. Evaluieren, vergleichen und wählen Sie das Basismodell für Ihren Anwendungsfall mit Model Evaluation aus. Bereiten Sie Ihre RAG-Anwendungen für die Produktion vor, die auf Amazon-Bedrock-Wissensdatenbanken oder Ihren eigenen benutzerdefinierten RAG-Systemen basieren, indem Sie die Funktionen zum Abrufen oder Abrufen und Generieren auswerten.

Bewertungstypen

Modelle: LLM-as-a-Judge

Verwenden Sie LLM-as-a-Judge, um Modellergebnisse anhand Ihrer benutzerdefinierten Prompt-Datensätze mit Metriken wie Richtigkeit, Vollständigkeit und Schädlichkeit zu bewerten.

Modelle: Programmatisch

Evaluieren Sie Modellergebnisse mithilfe traditioneller Algorithmen und Metriken in natürlicher Sprache wie BERT Score, F1 und anderen exakten Vergleichstechniken, indem Sie integrierte Prompt-Datensätze verwenden oder Ihre eigenen mitbringen.

Modelle: auf Menschen basierend

Evaluieren Sie die Modellergebnisse mit Ihrer eigenen Belegschaft oder lassen Sie AWS Ihre Bewertungen der Antworten auf Ihre benutzerdefinierten Prompt-Datensätze mit integrierten oder individuellen Metriken verwalten.

RAG: Abruf

Bewerten Sie die Abrufqualität Ihres benutzerdefinierten RAG-Systems auf Amazon-Bedrock-Wissensdatenbanken mit Ihren benutzerdefinierten Prompts und Metriken wie Kontextrelevanz und Kontextabdeckung.

RAG: Abrufen und Generieren

Evaluieren Sie den generierten Inhalt Ihres umfassenden RAG-Workflows entweder aus Ihrer benutzerdefinierten RAG-Pipeline oder aus den Amazon-Bedrock-Wissensdatenbanken. Verwenden Sie Ihre eigenen Prompts und Kennzahlen wie Treue (Halluzinationserkennung), Richtigkeit und Vollständigkeit.

Ihren umfassenden RAG-Workflow evaluieren

Verwenden Sie abgerufenen und generierte Evaluationen, um die durchgängige RAG-Fähigkeit (Retrieval-Augmented Generation) Ihrer Anwendung zu evaluieren. Stellen Sie sicher, dass der generierte Inhalt korrekt und vollständig ist, Halluzinationen begrenzt und den Prinzipien verantwortungsvoller KI entspricht. Bewerten Sie entweder die Leistung einer Bedrock-Wissensdatenbank oder bringen Sie Ihre eigenen Inferenzantworten aus Ihrem benutzerdefinierten RAG-System mit. Wählen Sie einfach ein LLM aus, das Sie als Judge für Ihre Amazon-Bedrock-Wissensdatenbanken oder für Ihre benutzerdefinierten RAG-Ausgaben verwenden möchten, laden Sie Ihren Datensatz hoch und wählen Sie die Metriken aus, die für Ihre Bewertung am wichtigsten sind.

Gewährleisten Sie einen vollständigen und relevanten Abruf aus Ihrem RAG-System

Verwenden Sie RAG-Abrufauswertungen, um die Speicher- und Abrufeinstellungen Ihrer Amazon-Bedrock-Wissensdatenbanken oder Ihres benutzerdefinierten RAG-Systems auszuwerten. Stellen Sie sicher, dass der abgerufene Inhalt relevant ist und die gesamte Benutzeranfrage abdeckt. Wählen Sie einfach ein LLM aus, das Sie als Judge verwenden möchten, wählen Sie eine Bedrock-Wissensdatenbank aus, um Ihre benutzerdefinierten RAG-Systemabrufe zu bewerten oder in Ihren Prompt-Datensatz aufzunehmen, und wählen Sie Ihre Metriken aus.

FMs bewerten, um das beste für Ihren Anwendungsfall auszuwählen

Die Modellbewertung in Amazon Bedrock ermöglicht es Ihnen, automatische und menschliche Bewertungen zu verwenden, um FMs für einen bestimmten Anwendungsfall auszuwählen. Die automatische (programmatische) Modellbewertung verwendet kuratierte Datensätze und bietet vordefinierte Metriken wie Genauigkeit, Robustheit und Toxizität. Für subjektive Metriken können Sie mit Amazon Bedrock in wenigen schnellen Schritten einen Workflow zur menschliche Bewertung einrichten. Mit menschlichen Bewertungen können Sie Ihre eigenen Datensätze einbringen und benutzerdefinierte Kennzahlen wie Relevanz, Stil und Ausrichtung auf die Markenstimme definieren. Bei Workflows zur menschlichen Bewertung können Sie Ihre eigenen Mitarbeiter als Prüfer einsetzen oder Sie können ein von AWS verwaltetes Team mit der Durchführung der menschlichen Bewertung beauftragen, wobei AWS qualifizierte Gutachter anstellt und den gesamten Workflow in Ihrem Namen verwaltet. Sie können einen LLM-as-a-Judge auch verwenden, um qualitativ hochwertige Bewertungen Ihres Datensatzes mit Kennzahlen wie Richtigkeit, Vollständigkeit, Genauigkeit (Halluzination) sowie verantwortungsvollen KI-Metriken wie Antwortverweigerung und Schädlichkeit vorzunehmen. Sie können Bedrock-Modelle oder jedes beliebige Modell evaluieren, indem Sie Ihre eigenen Inferenzantworten in Ihren Eingabe-Prompt-Datensatz einfügen.

Vergleichen Sie die Ergebnisse mehrerer Bewertungsaufträge, um schneller Entscheidungen zu treffen

Verwenden Sie die Vergleichsfunktion in Evaluationen, um die Ergebnisse aller Änderungen zu sehen, die Sie an Ihren Eingabeaufforderungen, den zu bewertenden Modellen, Ihren benutzerdefinierten RAG-Systemen oder den Bedrock Knowledge Bases vorgenommen haben.