Évaluations d’Amazon Bedrock
Évaluez les modèles de fondation, y compris les modèles personnalisés et importés, afin de trouver ceux qui répondent à vos besoins. Vous pouvez également évaluer votre processus de récupération ou votre flux de travail RAG de bout en bout dans les bases de connaissances Amazon Bedrock.
Présentation
Amazon Bedrock fournit des outils d’évaluation qui vous permettent d’accélérer l’adoption d’applications d’IA générative. Évaluez, comparez et sélectionnez le modèle de base pour votre cas d’utilisation grâce à l’évaluation des modèles. Préparez vos applications RAG pour la production fondées sur les bases de connaissances Amazon Bedrock ou sur vos propres systèmes RAG personnalisés en évaluant les fonctions de récupération ou de récupération et génération.

Types d’évaluation
Évaluation de votre flux de travail RAG de bout en bout
Utilisez la fonction de récupération et de génération d’évaluations pour évaluer la capacité de génération augmentée (RAG) de bout en bout de votre application. Assurez-vous que le contenu généré est correct et complet, qu’il limite les hallucinations et qu’il respecte les principes de l’IA responsable. Évaluez les performances d’une base de connaissances Bedrock ou apportez vos propres réponses d’inférence à partir de votre système RAG personnalisé. Sélectionnez simplement un LLM à utiliser comme juge avec vos bases de connaissances Amazon Bedrock ou pour vos sorties RAG personnalisées, chargez votre jeu de données et sélectionnez les métriques les plus importantes pour votre évaluation.

Garantie d’une récupération complète et pertinente à partir de votre système RAG
Utilisez les évaluations de récupération RAG pour évaluer les paramètres de stockage et de récupération de vos bases de connaissances Amazon Bedrock ou de votre système RAG personnalisé. Assurez-vous que le contenu récupéré est pertinent et couvre l’ensemble de la requête de l’utilisateur. Il vous suffit de sélectionner un LLM à utiliser en tant que juge, de choisir une base de connaissances Bedrock pour évaluer ou d’inclure les récupérations personnalisées de votre système RAG dans votre jeu de données d’invite, et de sélectionner vos indicateurs.

Évaluez les FM pour sélectionner celui qui convient le mieux à votre cas d'utilisation
L’évaluation des modèles Amazon Bedrock vous permet d’utiliser des évaluations automatiques et humaines pour sélectionner des FM adaptés à un cas d’utilisation spécifique. L’évaluation automatique (programmée) des modèles utilise des jeux de données sélectionnés et personnalisés, et fournit des métriques prédéfinies telles que la précision, la robustesse et la toxicité. Pour les métriques subjectives, vous pouvez utiliser Amazon Bedrock pour configurer un flux de travail d'évaluation humaine en quelques étapes simples. Grâce aux évaluations humaines, vous pouvez apporter vos propres jeux de données et définir des métriques personnalisées, telles que la pertinence, le style et l'alignement avec la voix de la marque. Les flux de travail d’évaluation humaine peuvent tirer parti de vos propres employés en tant que réviseurs, ou vous pouvez engager une équipe gérée par AWS pour effectuer l’évaluation humaine, dans le cadre de laquelle AWS recrute des évaluateurs qualifiés et gère le flux de travail complet en votre nom. Vous pouvez également utiliser un LLM-as-a-Judge pour fournir des évaluations de haute qualité sur votre jeu de données avec des indicateurs tels que l’exactitude, l’exhaustivité, la fidélité (hallucination), ainsi que des indicateurs d’IA responsables tels que le refus de réponse et la nocivité. Vous pouvez évaluer les modèles Bedrock ou n’importe quel modèle où qu’il soit en apportant vos propres réponses d’inférence dans votre jeu de données d’invite.

Comparez les résultats de plusieurs tâches d’évaluation pour prendre des décisions plus rapidement
Utilisez la fonctionnalité de comparaison dans les évaluations pour voir les résultats des modifications que vous avez apportées à vos invites, aux modèles évalués, à vos systèmes RAG personnalisés ou aux bases de connaissances Bedrock.
