Evaluasi Amazon Bedrock
Evaluasi model fondasi, termasuk model kustom dan impor, untuk menemukan model yang sesuai dengan kebutuhan Anda. Anda juga dapat mengevaluasi pengambilan atau alur kerja RAG menyeluruh di Basis Pengetahuan Amazon Bedrock.
Ikhtisar
Amazon Bedrock menyediakan alat evaluasi bagi Anda untuk mempercepat adaptasi aplikasi AI generatif. Evaluasi, bandingkan, dan pilih model fondasi untuk kasus penggunaan Anda dengan Evaluasi Model. Siapkan aplikasi RAG Anda yang dibangun di Basis Pengetahuan Amazon Bedrock atau sistem RAG kustom Anda untuk produksi dengan mengevaluasi fungsi ambil atau fungsi ambil dan hasilkan.

Tipe evaluasi
Evaluasi alur kerja RAG dari awal hingga akhir
Gunakan fungsi evaluasi ambil dan buat untuk mengevaluasi kemampuan retrieval-augmented generation (RAG) menyeluruh di aplikasi Anda. Pastikan konten yang dihasilkan benar, lengkap, membatasi halusinasi, dan mematuhi prinsip-prinsip AI yang bertanggung jawab. Evaluasi kinerja Basis Pengetahuan Bedrock atau masukkan respons inferensi Anda sendiri dari sistem RAG kustom Anda. Pilih LLM untuk digunakan sebagai penilai dengan Basis Pengetahuan Amazon Bedrock atau untuk output RAG kustom, unggah set data, dan pilih metrik yang paling penting untuk evaluasi Anda.

Pastikan pengambilan yang lengkap dan relevan dari sistem RAG Anda
Gunakan evaluasi pengambilan RAG untuk mengevaluasi pengaturan penyimpanan dan pengambilan dari Basis Pengetahuan Amazon Bedrock atau sistem RAG kustom Anda. Pastikan konten yang diambil relevan dan mencakup seluruh permintaan pengguna. Cukup pilih LLM untuk digunakan sebagai penilai, pilih Basis Pengetahuan Bedrock yang akan dievaluasi atau sertakan pengambilan sistem RAG kustom dalam set data prompt Anda, lalu pilih metriknya.

Evaluasi FM untuk memilih yang terbaik untuk kasus penggunaan Anda
Evaluasi Model Amazon Bedrock memungkinkan Anda menggunakan evaluasi otomatis dan evaluasi manusia dalam memilih FM untuk kasus penggunaan tertentu. Evaluasi model otomatis (Terprogram) menggunakan set data terkurasi dan khusus serta menyediakan metrik yang telah ditentukan sebelumnya termasuk akurasi, ketahanan, dan toksisitas. Untuk metrik subjektif, Anda dapat menggunakan Amazon Bedrock untuk menyiapkan alur kerja evaluasi manusia dalam beberapa langkah cepat. Dengan evaluasi manusia, Anda dapat membawa set data Anda sendiri dan menentukan metrik kustom, seperti relevansi, gaya, dan keselarasan dengan suara merek. Alur kerja evaluasi manusia dapat menggunakan karyawan Anda sendiri sebagai peninjau atau Anda dapat melibatkan tim yang dikelola oleh AWS untuk melakukan evaluasi manusia, tempat AWS mempekerjakan evaluator terampil dan mengelola seluruh alur kerja atas nama Anda. Anda juga dapat menggunakan metode LLM-as-a-Judge untuk memberikan evaluasi berkualitas tinggi pada set data Anda dengan metrik seperti ketepatan, kelengkapan, kejujuran (halusinasi), serta metrik AI yang bertanggung jawab seperti penolakan jawaban dan deteksi bahaya. Anda dapat mengevaluasi model Bedrock atau model apa pun di mana saja dengan memasukkan respons inferensi Anda sendiri dalam set data prompt input Anda.

Bandingkan hasil di beberapa tugas evaluasi untuk membuat keputusan lebih cepat
Gunakan fitur perbandingan dalam evaluasi untuk melihat hasil dari setiap perubahan yang Anda buat pada prompt, model yang dievaluasi, sistem RAG kustom, atau Basis Pengetahuan Bedrock Anda.
