Evaluaciones de Amazon Bedrock

Evalúe modelos fundacionales, incluidos los modelos personalizados e importados, para encontrar modelos que se ajusten a sus necesidades. También puede evaluar su flujo de trabajo de RAG integral o de recuperación en las bases de conocimiento de Amazon Bedrock.

Información general

Amazon Bedrock proporciona herramientas de evaluación para acelerar la adopción de aplicaciones de IA generativa. Evalúe, compare y seleccione el modelo base para su caso de uso con la evaluación del modelo. Prepare sus aplicaciones RAG para la producción que estén creadas en las bases de conocimiento de Amazon Bedrock o sus propios sistemas RAG personalizados mediante la evaluación de las funciones de recuperación o recuperación y generación.

Captura de pantalla de la UI

Tipos de evaluación

Utilice un LLM como juez para evaluar los resultados del modelo utilizando sus conjuntos de datos de solicitudes personalizadas con métricas como la exactitud, la integridad y la nocividad.

Evalúe los resultados del modelo utilizando algoritmos y métricas tradicionales del lenguaje natural, como BERT Score, F1 y otras técnicas de coincidencia exacta, mediante conjuntos de datos de mensajes integrados o traiga los suyos propios.

Evalúe los resultados del modelo con su propio personal o haga que AWS gestione las evaluaciones de las respuestas a sus conjuntos de datos de solicitudes personalizadas con métricas integradas o personalizadas.

Evalúe la calidad de recuperación del sistema RAG personalizado o de las bases de conocimiento de Amazon Bedrock con peticiones y métricas propias, como la relevancia y la cobertura del contexto.

Evalúe el contenido generado en el flujo de trabajo integral del RAG, ya sea desde una canalización personalizada de RAG o desde las bases de conocimiento de Amazon Bedrock. Use peticiones y métricas propias, como la fidelidad (detección de alucinaciones), la exactitud y la integridad.

Cómo evaluar íntegramente el flujo de trabajo de RAG

Utilice las evaluaciones de recuperación y generación para evaluar la capacidad de recuperación y generación aumentada (RAG) de extremo a extremo de su aplicación. Asegúrese de que el contenido generado sea correcto, completo, limite las alucinaciones y respete los principios de la IA responsable. Evalúe el rendimiento de una base de conocimientos de Bedrock o use sus propias respuestas de inferencia de su sistema RAG personalizado. Seleccione un LLM para usarlo como evaluador de sus bases de conocimientos de Amazon Bedrock o sus salidas personalizadas de RAG, cargue su conjunto de datos y elija las métricas más relevantes para la evaluación.

Captura de pantalla de la UI

Cómo asegurar la recuperación completa y pertinente de su sistema RAG

Utilice las evaluaciones de recuperación de RAG para evaluar la configuración de almacenamiento y recuperación de sus bases de conocimiento de Amazon Bedrock o su sistema RAG personalizado. Asegúrese de que el contenido recuperado sea relevante y cubra toda la consulta del usuario. Seleccione un LLM para usarlo como evaluador, elija una base de conocimientos de Bedrock para evaluar o incluya las recuperaciones del sistema RAG personalizado en su conjunto de datos de peticiones y seleccione las métricas.

Captura de pantalla de la UI

Evalúe los FM para seleccionar el que mejor se adapte a su caso de uso

La evaluación del modelo de Amazon Bedrock permite utilizar evaluaciones automáticas y humanas para seleccionar los FM para un caso de uso específico. La evaluación automática del modelo utiliza conjuntos de datos seleccionados y proporciona métricas predefinidas que incluyen la precisión, la solidez y la toxicidad. En el caso de las métricas subjetivas, puede utilizar Amazon Bedrock para configurar un flujo de trabajo de evaluación humana en unos pocos pasos. Con las evaluaciones humanas, puede traer sus propios conjuntos de datos y definir métricas personalizadas, como la relevancia, el estilo y la alineación con la voz de la marca. Los flujos de trabajo de evaluación humana pueden aprovechar a sus propios empleados como revisores o puede contratar a un equipo administrado por AWS para que lleve a cabo la evaluación humana, donde AWS contrata a evaluadores cualificados y administra todo el flujo de trabajo en su nombre. También puede usar una LLM como juez para proporcionar evaluaciones de alta calidad sobre su conjunto de datos con métricas como la corrección, la integridad y la fidelidad (alucinaciones), así como métricas de IA responsable, como el rechazo a la respuesta y la nocividad. Puede evaluar los modelos de Bedrock y cualquier otro modelo en cualquier lugar con sus propias respuestas de inferencia en su conjunto de datos de peticiones de entrada.

Captura de pantalla de la UI

Compare los resultados de varios trabajos de evaluación para tomar decisiones con mayor rapidez

Utilice la característica de comparación en las evaluaciones para ver los resultados de cualquier cambio que haya realizado en las peticiones, los modelos que se están evaluando, los sistemas RAG personalizados o las bases de conocimiento de Bedrock.

Captura de pantalla de la UI