Avaliações do Amazon Bedrock

Avalie modelos de base, incluindo modelos personalizados e importados, para encontrar modelos que atendam às suas necessidades. Você também pode avaliar seu fluxo de trabalho de recuperação ou RAG de ponta a ponta no Amazon Bedrock Knowledge Bases.

Visão geral

O Amazon Bedrock fornece ferramentas de avaliação para acelerar a adoção de aplicações de IA generativa. Avalie, compare e selecione o modelo de base para seu caso de uso com a avaliação de modelo. Prepare suas aplicações de RAG para produção que são criadas nas Bases de Conhecimento do Amazon Bedrock ou em seus próprios sistemas de RAG personalizados avaliando as funções de recuperação ou de recuperação e geração.

Captura de tela da interface do usuário

Tipos de avaliação

Use um LLM como determinante para avaliar resultados de modelos com base nos seus conjuntos de dados de prompt personalizados, utilizando métricas como exatidão, integridade e nocividade.

Avalie as saídas do modelo usando algoritmos e métricas tradicionais de linguagem natural, como BERT Score, F1 e outras técnicas de correspondência exata, com o auxílio de conjuntos de dados de prompt integrados, ou traga seus próprios métodos.

Avalie resultados de modelos com sua própria força de trabalho ou faça com que a AWS gerencie suas avaliações nas respostas aos conjuntos de dados de prompts personalizados com métricas integradas ou personalizadas.

Avalie a qualidade da recuperação de seu sistema de RAG personalizado ou de suas Bases de Conhecimento do Amazon Bedrock com prompts e métricas personalizadas, como relevância e cobertura do contexto.

Avalie o conteúdo gerado do seu fluxo de trabalho de RAG de ponta a ponta a partir do seu pipeline de RAG personalizado ou das Bases de Conhecimento do Amazon Bedrock. Use seus próprios prompts e métricas, como fidelidade (detecção de alucinações), exatidão e integridade.

Avalie seu fluxo de trabalho de RAG de ponta a ponta

Use avaliações de recuperação e geração para avaliar a capacidade de geração aumentada via recuperação (RAG) completa da aplicação. Garanta que o conteúdo gerado esteja correto e completo e que limite as alucinações e siga os princípios de IA responsável. Avalie o desempenho de uma Base de Conhecimento do Bedrock ou traga suas próprias respostas de inferência do sistema de RAG personalizado. Basta selecionar um LLM para usar como juiz com suas Bases de Conhecimento do Amazon Bedrock ou para suas saídas de RAG personalizadas, carregar seu conjunto de dados e selecionar as métricas mais importantes para a avaliação.

Captura de tela da interface do usuário

Garanta a recuperação completa e relevante do seu sistema de RAG

Use as avaliações de recuperação do RAG para avaliar as configurações de armazenamento e recuperação de suas bases de conhecimento da Amazon Bedrock ou do sistema RAG personalizado. Certifique-se de que o conteúdo recuperado seja relevante e abranja toda a consulta do usuário. Basta selecionar um LLM para usar como juiz, escolher uma Base de Conhecimento do Bedrock para avaliar ou incluir suas recuperações personalizadas do sistema RAG em seu conjunto de dados de prompts e selecionar suas métricas.

Captura de tela da interface do usuário

Avalie FMs para selecionar o melhor para o seu caso de uso

A avaliação de modelo do Amazon Bedrock permite usar avaliações automáticas e humanas ao selecionar FMs para um caso de uso específico. A avaliação de modelo automática (programática) usa conjuntos de dados selecionados e personalizados, além de fornecer métricas predefinidas, incluindo precisão, robustez e toxicidade. Para métricas subjetivas, você pode usar o Amazon Bedrock para configurar um fluxo de trabalho de avaliação humana com algumas etapas rápidas. Com avaliações humanas, você pode trazer seus próprios conjuntos de dados e definir métricas personalizadas, como relevância, estilo e alinhamento com a voz da marca. Os fluxos de trabalho de avaliação humana podem usar seus próprios funcionários como revisores ou você pode contratar uma equipe gerenciada pela AWS para realizar a avaliação humana, em que a AWS designa avaliadores qualificados e gerencia o fluxo de trabalho completo por você. Você também pode usar um LLM como o determinante para fornecer avaliações de alta qualidade em seu conjunto de dados com métricas como correção, integridade, fidelidade (alucinação), bem como métricas de IA responsável, como recusa de resposta e nocividade. Você pode avaliar modelos do Bedrock ou qualquer modelo em qualquer lugar trazendo suas próprias respostas de inferência em seu conjunto de dados de prompts de entrada.

Captura de tela da interface do usuário

Compare os resultados em vários trabalhos de avaliação para tomar decisões com mais rapidez

Use o atributo de comparação nas avaliações para ver os resultados de quaisquer alterações feitas em prompts, nos modelos que estão sendo avaliados, em seus sistemas de RAG personalizados ou nas Bases de Conhecimento do Bedrock.

Captura de tela da interface do usuário