Amazon-Bedrock-Bewertungen

Evaluieren Sie Basismodelle, einschließlich benutzerdefinierter und importierter Modelle, um Modelle zu finden, die Ihren Anforderungen entsprechen. Sie können Ihren Abruf- oder umfassenden RAG-Workflow auch in den Amazon-Bedrock-Wissensdatenbanken auswerten.

Übersicht

Amazon Bedrock bietet Ihnen Evaluierungstools, mit denen Sie die Einführung generativer KI-Anwendungen beschleunigen können. Evaluieren, vergleichen und wählen Sie das Basismodell für Ihren Anwendungsfall mit Model Evaluation aus. Bereiten Sie Ihre auf Amazon Bedrock Knowledge Bases basierenden RAG-Anwendungen für die Produktion vor, indem Sie die Abruf- oder Abruf- und Generierungsfunktionen evaluieren.

Screenshot der Benutzeroberfläche

Bewertungstypen

Verwenden Sie LLM-as-a-Judge, um Modellergebnisse anhand Ihrer benutzerdefinierten Prompt-Datensätze mit Metriken wie Richtigkeit, Vollständigkeit und Schädlichkeit zu bewerten.

Evaluieren Sie Modellergebnisse mithilfe traditioneller Algorithmen und Metriken in natürlicher Sprache wie BERT Score, F1 und anderen exakten Vergleichstechniken, indem Sie integrierte Prompt-Datensätze verwenden oder Ihre eigenen mitbringen.

Evaluieren Sie die Modellergebnisse mit Ihrer eigenen Belegschaft oder lassen Sie AWS Ihre Bewertungen der Antworten auf Ihre benutzerdefinierten Prompt-Datensätze mit integrierten oder individuellen Metriken verwalten.

Bewerten Sie die Abrufqualität Ihrer Amazon-Bedrock-Wissensdatenbanken mit Ihren benutzerdefinierten Prompts und Metriken wie Kontextrelevanz und Kontextabdeckung.

Bewerten Sie den generierten Inhalt Ihres umfassenden RAG-Workflows mit Amazon-Bedrock-Wissensdatenbanken anhand Ihrer benutzerdefinierten Prompts und Kennzahlen wie Genauigkeit, Richtigkeit und Vollständigkeit.

Evaluieren Sie Ihren umfassenden RAG-Workflow in den Amazon-Bedrock-Wissensdatenbanken

Verwenden Sie abgerufenen und generierte Evaluationen, um die durchgängige RAG-Fähigkeit (Retrieval-Augmented Generation) Ihrer Anwendung zu evaluieren. Stellen Sie sicher, dass der generierte Inhalt korrekt und vollständig ist, Halluzinationen begrenzt und den Prinzipien verantwortungsvoller KI entspricht. Wählen Sie einfach ein inhaltsgenerierendes Modell und ein LLM aus, das Sie als Judge für Ihre Amazon-Bedrock-Wissensdatenbank verwenden möchten, laden Sie Ihren benutzerdefinierten Prompt-Datensatz hoch und wählen Sie die Metriken aus, die für Ihre Bewertung am wichtigsten sind.

Screenshot der Benutzeroberfläche

Stellen Sie sicher, dass der vollständige und relevante Abruf aus den Amazon-Bedrock-Wissensdatenbanken erfolgt

Verwenden Sie „Bewertungen abrufen“ in den Evaluationen der Amazon-Bedrock-Wissensdatenbanken, um die Speicher- und Abrufeinstellungen Ihrer Amazon-Bedrock-Wissensdatenbank auszuwerten. Stellen Sie sicher, dass der abgerufene Inhalt relevant ist und die gesamte Benutzeranfrage abdeckt. Wählen Sie einfach eine Wissensdatenbank und ein LLM aus, das Sie als Judge verwenden möchten, laden Sie Ihren benutzerdefinierten Prompt-Datensatz hoch und wählen Sie die für Ihre Bewertung wichtigsten Kennzahlen aus.

Screenshot der Benutzeroberfläche

FMs bewerten, um das beste für Ihren Anwendungsfall auszuwählen

Die Modellbewertung in Amazon Bedrock ermöglicht es Ihnen, automatische und menschliche Bewertungen zu verwenden, um FMs für einen bestimmten Anwendungsfall auszuwählen. Die automatische (programmatische) Modellbewertung verwendet kuratierte Datensätze und bietet vordefinierte Metriken wie Genauigkeit, Robustheit und Toxizität. Für subjektive Metriken können Sie mit Amazon Bedrock in wenigen schnellen Schritten einen Workflow zur menschliche Bewertung einrichten. Mit menschlichen Bewertungen können Sie Ihre eigenen Datensätze einbringen und benutzerdefinierte Kennzahlen wie Relevanz, Stil und Ausrichtung auf die Markenstimme definieren. Bei Workflows zur menschlichen Bewertung können Sie Ihre eigenen Mitarbeiter als Prüfer einsetzen oder Sie können ein von AWS verwaltetes Team mit der Durchführung der menschlichen Bewertung beauftragen, wobei AWS qualifizierte Gutachter anstellt und den gesamten Workflow in Ihrem Namen verwaltet. Sie können einen LLM-as-a-Judge auch verwenden, um qualitativ hochwertige Bewertungen Ihres Datensatzes mit Kennzahlen wie Richtigkeit, Vollständigkeit, Genauigkeit (Halluzination) sowie verantwortungsvollen KI-Metriken wie Antwortverweigerung und Schädlichkeit vorzunehmen.

Screenshot der Benutzeroberfläche

Vergleichen Sie die Ergebnisse mehrerer Bewertungsaufträge, um schneller Entscheidungen zu treffen

Verwenden Sie die Vergleichsfunktion in Evaluationen, um die Ergebnisse aller Änderungen zu sehen, die Sie an Ihren Eingabeaufforderungen, den evaluierten Modellen oder den Wissensdatenbanken in Ihrem RAG-System vorgenommen haben.

Screenshot der Benutzeroberfläche