Avaliações do Amazon Bedrock
Avalie modelos de base, incluindo modelos personalizados e importados, para encontrar modelos que atendam às suas necessidades. Você também pode avaliar seu fluxo de trabalho de recuperação ou RAG de ponta a ponta no Amazon Bedrock Knowledge Bases.
Visão geral
O Amazon Bedrock fornece ferramentas de avaliação para acelerar a adoção de aplicações de IA generativa. Avalie, compare e selecione o modelo de base para seu caso de uso com a avaliação de modelo. Prepare suas aplicações de RAG para produção que são criadas nas Bases de Conhecimento do Amazon Bedrock ou em seus próprios sistemas de RAG personalizados avaliando as funções de recuperação ou de recuperação e geração.

Tipos de avaliação
Avalie seu fluxo de trabalho de RAG de ponta a ponta
Use avaliações de recuperação e geração para avaliar a capacidade de geração aumentada via recuperação (RAG) completa da aplicação. Garanta que o conteúdo gerado esteja correto e completo e que limite as alucinações e siga os princípios de IA responsável. Avalie o desempenho de uma Base de Conhecimento do Bedrock ou traga suas próprias respostas de inferência do sistema de RAG personalizado. Basta selecionar um LLM para usar como juiz com suas Bases de Conhecimento do Amazon Bedrock ou para suas saídas de RAG personalizadas, carregar seu conjunto de dados e selecionar as métricas mais importantes para a avaliação.

Garanta a recuperação completa e relevante do seu sistema de RAG
Use as avaliações de recuperação do RAG para avaliar as configurações de armazenamento e recuperação de suas bases de conhecimento da Amazon Bedrock ou do sistema RAG personalizado. Certifique-se de que o conteúdo recuperado seja relevante e abranja toda a consulta do usuário. Basta selecionar um LLM para usar como juiz, escolher uma Base de Conhecimento do Bedrock para avaliar ou incluir suas recuperações personalizadas do sistema RAG em seu conjunto de dados de prompts e selecionar suas métricas.

Avalie FMs para selecionar o melhor para o seu caso de uso
A avaliação de modelo do Amazon Bedrock permite usar avaliações automáticas e humanas ao selecionar FMs para um caso de uso específico. A avaliação de modelo automática (programática) usa conjuntos de dados selecionados e personalizados, além de fornecer métricas predefinidas, incluindo precisão, robustez e toxicidade. Para métricas subjetivas, você pode usar o Amazon Bedrock para configurar um fluxo de trabalho de avaliação humana com algumas etapas rápidas. Com avaliações humanas, você pode trazer seus próprios conjuntos de dados e definir métricas personalizadas, como relevância, estilo e alinhamento com a voz da marca. Os fluxos de trabalho de avaliação humana podem usar seus próprios funcionários como revisores ou você pode contratar uma equipe gerenciada pela AWS para realizar a avaliação humana, em que a AWS designa avaliadores qualificados e gerencia o fluxo de trabalho completo por você. Você também pode usar um LLM como o determinante para fornecer avaliações de alta qualidade em seu conjunto de dados com métricas como correção, integridade, fidelidade (alucinação), bem como métricas de IA responsável, como recusa de resposta e nocividade. Você pode avaliar modelos do Bedrock ou qualquer modelo em qualquer lugar trazendo suas próprias respostas de inferência em seu conjunto de dados de prompts de entrada.

Compare os resultados em vários trabalhos de avaliação para tomar decisões com mais rapidez
Use o atributo de comparação nas avaliações para ver os resultados de quaisquer alterações feitas em prompts, nos modelos que estão sendo avaliados, em seus sistemas de RAG personalizados ou nas Bases de Conhecimento do Bedrock.
