Valutazioni di Amazon Bedrock

Valuta i modelli di fondazione, compresi i modelli personalizzati e importati, per trovare i modelli più adatti alle tue esigenze. Puoi anche valutare il tuo flusso di lavoro RAG di recupero o completo nelle Knowledge Base di Amazon Bedrock.

Panoramica

Amazon Bedrock fornisce strumenti di valutazione per accelerare l'adozione di applicazioni di IA generativa. Valuta, confronta e seleziona il modello di base per il tuo caso d'uso con la valutazione del modello. Prepara per la produzione le tue applicazioni RAG basate sulle knowledge base Amazon Bedrock o su un sistema RAG personalizzato valutando le funzioni di recupero o recupero e generazione.

Schermata dell'interfaccia utente

Tipi di valutazione

Usa un LLM come giudice per valutare i risultati del modello utilizzando i tuoi set di dati prompt personalizzati con metriche quali correttezza, completezza e dannosità.

Valuta gli output del modello utilizzando algoritmi e metriche tradizionali in linguaggio naturale come BERT Score, F1 e altre tecniche di corrispondenza esatta, utilizzando set di dati prompt integrati o bring your own.

Valuta gli output dei modelli con la tua forza lavoro o chiedi ad AWS di gestire le tue valutazioni sulle risposte ai tuoi set di dati di prompt personalizzati con metriche integrate o personalizzate.

Valuta la qualità del recupero del tuo sistema RAG personalizzato o delle tue knowledge base Amazon Bedrock con metriche e prompt personalizzati, come la pertinenza e la copertura del contesto.

Valuta il contenuto generato dal flusso di lavoro RAG end-to-end dalla tua pipeline RAG personalizzata o dalle knowledge base Amazon Bedrock. Usa prompt e metriche personalizzati, come fedeltà (rilevamento delle allucinazioni), correttezza e completezza.

Valuta il tuo flusso di lavoro RAG end-to-end

Usa il recupero e genera di valutazioni per valutare la capacità di generazione aumentata di recupero (RAG) end-to-end della tua applicazione. Assicurati che il contenuto generato sia corretto, completo, limiti le allucinazioni e aderisca ai principi dell'IA responsabile. Valuta le prestazioni di una knowledge base Bedrock o fornisci le tue risposte di inferenza dal tuo sistema RAG personalizzato. Dovrai soltanto selezionare un LLM da utilizzare come giudice con le knowledge base Amazon Bedrock o gli output del RAG personalizzato, caricare il tuo set di dati e selezionare le metriche più importanti per la valutazione.

Schermata dell'interfaccia utente

Garantisci completezza e pertinenza del recupero dal tuo sistema RAG

Usa le valutazioni del recupero RAG per valutare le impostazioni di archiviazione e recupero delle tue knowledge base Amazon Bedrock o del tuo sistema RAG personalizzato. Assicurati che il contenuto recuperato sia pertinente e copra l'intera query dell'utente. Dovrai soltanto selezionare un LLM da utilizzare come giudice, scegliere una knowledge base Bedrock da valutare o includere i recuperi del sistema RAG personalizzato nel set di dati dei prompt, per poi selezionare le metriche.

Schermata dell'interfaccia utente

Valuta gli FM per selezionare il modello migliore per il tuo caso d'uso

La valutazione di modelli di Amazon Bedrock consente di utilizzare valutazioni automatiche e umane per selezionare modelli di fondazione (FM) per un caso d'uso specifico. La valutazione automatica (programmatica) dei modelli utilizza set di dati selezionati e personalizzati e fornisce parametri predefiniti, tra cui accuratezza, solidità e rilevamento di contenuti inappropriati. Per adottare parametri soggettivi, è possibile utilizzare Amazon Bedrock per configurare un flusso di lavoro di valutazione umana in pochi passaggi. Con la valutazione umana, è possibile utilizzare il proprio set di dati e definire parametri personalizzati, come pertinenza, stile e conformità alla voce del marchio. Per l'esecuzione di flussi di lavoro di valutazione umana, puoi impiegare i tuoi dipendenti come revisori o affidarti a un team gestito da AWS. In questo caso, AWS assume valutatori esperti e gestisce il flusso di lavoro completo per tuo conto. Puoi anche utilizzare un LLM-as-a-Judge per fornire valutazioni di alta qualità sul tuo set di dati con metriche quali correttezza, completezza, fedeltà (allucinazione) e metriche di IA responsabile come il rifiuto della risposta e la dannosità. Puoi valutare i modelli Bedrock o qualsiasi altro modello ovunque inserendo le risposte dell'inferenza nel set di dati del prompt di input.

Schermata dell'interfaccia utente

Confronta i risultati di più attività di valutazione per prendere decisioni più velocemente

Usa la funzionalità di confronto nelle valutazioni per visualizzare i risultati di eventuali modifiche apportate ai prompt, ai modelli in fase di valutazione, al sistema RAG personalizzato o alle knowledge base Bedrock.

Schermata dell'interfaccia utente