Amazon Bedrock 평가

사용자 지정 모델 및 가져온 모델을 비롯해서 파운데이션 모델을 평가하여 요구 사항에 맞는 모델을 찾을 수 있습니다. 또한 Amazon Bedrock Knowledge Bases에서 검색 또는 엔드 투 엔드 RAG 워크플로를 평가할 수 있습니다.

개요

Amazon Bedrock은 생성형 AI 애플리케이션의 도입을 가속화할 수 있는 평가 도구를 제공합니다. 모델 평가를 통해 사용 사례에 맞는 파운데이션 모델을 평가, 비교 및 선택할 수 있습니다. 검색 또는 검색 및 생성 함수를 평가하여 Amazon Bedrock Knowledge Bases 또는 사용자 지정 RAG 시스템에 구축된 프로덕션에 사용할 RAG 애플리케이션을 준비하세요.

평가 유형

모델: LLM-as-a-Judge

LLM을 심사자로 사용하여 정확성, 완전성, 유해성과 같은 지표가 포함된 사용자 지정 프롬프트 데이터세트로 모델 출력을 평가할 수 있습니다.

모델: 프로그래밍 방식

기존의 자연어 알고리즘과 BERT Score, F1 등의 지표와 기타 정확한 매칭 기법을 사용하여 내장된 프롬프트 데이터세트를 사용하거나 직접 가져와 모델 출력을 평가합니다.

모델: 인간 기반

자체 인력과 함께 모델 출력을 평가하거나, 기본제공 또는 사용자 지정 지표를 사용하여 사용자 지정 프롬프트 데이터세트 관련 응답에 대한 평가를 AWS에서 관리하도록 할 수 있습니다.

RAG: 검색

컨텍스트 관련성 및 컨텍스트 범위 같은 프롬프트와 지표를 사용하여 사용자 지정 RAG 시스템 또는 Amazon Bedrock Knowledge Bases의 검색 품질을 평가할 수 있습니다.

RAG: 검색 및 생성

사용자 지정 RAG 파이프라인 또는 Amazon Bedrock Knowledge Bases에서 엔드 투 엔드 RAG 워크플로의 생성된 콘텐츠를 평가할 수 있습니다. 충실도(할루시네이션 탐지), 정확성, 완전성 등과 같은 자체 프롬프트 및 지표를 사용해 보세요.

엔드 투 엔드 RAG 워크플로 평가

검색 및 생성 평가를 사용하여 애플리케이션의 엔드 투 엔드 검색 증강 생성(RAG) 기능을 평가할 수 있습니다. 생성된 콘텐츠가 정확하고, 완전하며, 할루시네이션을 제한하고, 책임 있는 AI 원칙을 준수하는지 확인할 수 있습니다. Bedrock Knowledge Base의 성능을 평가하거나, 사용자 지정 RAG 시스템에서 자체 추론 응답을 가져올 수 있습니다. Amazon Bedrock Knowledge Bases에서 또는 사용자 지정 RAG 출력에 대해 심사자로 사용할 LLM을 선택하고, 데이터세트를 업로드하고, 평가에 가장 중요한 지표를 선택하기만 하면 됩니다.

RAG 시스템에서 완전하고 연관성 높은 검색 보장

RAG 검색 평가를 사용하여 Amazon Bedrock Knowledge Bases 또는 사용자 지정 RAG 시스템의 스토리지 및 검색 설정을 평가할 수 있습니다. 검색된 콘텐츠가 관련성이 있고 전체 사용자 쿼리를 포괄하는지 확인할 수 있습니다. 심사자로 사용할 LLM을 선택한 후 평가할 Bedrock Knowledge Base를 선택하거나, 프롬프트 데이터세트에 사용자 지정 RAG 시스템 검색을 포함하고 지표를 선택하기만 하면 됩니다.

FM을 평가하여 사용 사례에 가장 적합한 FM 선택

Amazon Bedrock 모델 평가를 사용하면 자동 및 인적 평가를 사용하여 특정 사용 사례에 맞는 FM을 선택할 수 있습니다. 자동(프로그래밍 방식) 모델 평가는 큐레이팅 및 사용자 지정 데이터세트를 사용하며 정확성, 견고성, 유해성과 같은 사전 정의된 지표를 제공합니다. 주관적 지표의 경우 Amazon Bedrock을 사용하여 몇 가지 간단한 단계로 인적 평가 워크플로를 설정할 수 있습니다. 인적 평가를 사용할 때는 자체 데이터 세트를 가져와서 관련성, 스타일, 브랜드 표현 맞춤과 같은 사용자 지정 지표를 정의할 수 있습니다. 인적 평가 워크플로에서는 자체 직원을 검토자로 이용하거나 AWS에서 관리하는 팀을 고용하여 인적 평가를 수행할 수 있습니다. AWS에서 관리하는 팀을 고용하는 경우 AWS가 숙련된 평가자를 고용하고 사용자를 대신하여 전체 워크플로를 관리합니다. 또한 LLM-as-a-Judge를 사용하여 정확성, 완전성, 충실도(할루시네이션)와 같은 지표뿐만 아니라 답변 거부 및 유해성과 같은 책임 있는 AI 지표를 사용하여 데이터세트에 대한 고품질 평가를 제공할 수 있습니다. 입력 프롬프트 데이터세트에 자체 추론 응답을 가져와서 Bedrock 모델 또는 모든 모델을 어디서든 평가할 수 있습니다.