Evaluasi Amazon Bedrock

Evaluasi model fondasi, termasuk model kustom dan impor, untuk menemukan model yang sesuai dengan kebutuhan Anda. Anda juga dapat mengevaluasi pengambilan atau alur kerja RAG menyeluruh di Basis Pengetahuan Amazon Bedrock.

Ikhtisar

Amazon Bedrock menyediakan alat evaluasi bagi Anda untuk mempercepat adaptasi aplikasi AI generatif. Evaluasi, bandingkan, dan pilih model fondasi untuk kasus penggunaan Anda dengan Evaluasi Model. Siapkan aplikasi RAG Anda yang dibangun di Basis Pengetahuan Amazon Bedrock atau sistem RAG kustom Anda untuk produksi dengan mengevaluasi fungsi ambil atau fungsi ambil dan hasilkan.

Tangkapan layar UI

Tipe evaluasi

Gunakan LLM as a Judge untuk mengevaluasi output model menggunakan set data prompt kustom Anda dengan metrik, seperti ketepatan, kelengkapan, dan tingkat bahaya.

Evaluasi output model menggunakan algoritma dan metrik bahasa alami tradisional, seperti Skor BERT, F1, dan teknik pencocokan tepat lainnya, menggunakan set data prompt bawaan atau yang Anda bawa sendiri.

Evaluasi output model dengan tenaga kerja Anda sendiri atau minta AWS mengelola evaluasi Anda tentang respons terhadap set data prompt kustom Anda dengan metrik bawaan atau kustom.

Evaluasi kualitas pengambilan sistem RAG kustom atau Basis Pengetahuan Amazon Bedrock Anda dengan prompt dan metrik Anda, seperti relevansi konteks dan cakupan konteks.

Evaluasi konten yang dihasilkan dari alur kerja RAG Anda dari awal hingga akhir baik dari pipeline RAG kustom maupun Basis Pengetahuan Amazon Bedrock Anda. Gunakan prompt dan metrik Anda sendiri seperti akurasi (deteksi halusinasi), kebenaran, dan kelengkapan.

Evaluasi alur kerja RAG dari awal hingga akhir

Gunakan fungsi evaluasi ambil dan buat untuk mengevaluasi kemampuan retrieval-augmented generation (RAG) menyeluruh di aplikasi Anda. Pastikan konten yang dihasilkan benar, lengkap, membatasi halusinasi, dan mematuhi prinsip-prinsip AI yang bertanggung jawab. Evaluasi kinerja Basis Pengetahuan Bedrock atau masukkan respons inferensi Anda sendiri dari sistem RAG kustom Anda. Pilih LLM untuk digunakan sebagai penilai dengan Basis Pengetahuan Amazon Bedrock atau untuk output RAG kustom, unggah set data, dan pilih metrik yang paling penting untuk evaluasi Anda.

Tangkapan layar UI

Pastikan pengambilan yang lengkap dan relevan dari sistem RAG Anda

Gunakan evaluasi pengambilan RAG untuk mengevaluasi pengaturan penyimpanan dan pengambilan dari Basis Pengetahuan Amazon Bedrock atau sistem RAG kustom Anda. Pastikan konten yang diambil relevan dan mencakup seluruh permintaan pengguna. Cukup pilih LLM untuk digunakan sebagai penilai, pilih Basis Pengetahuan Bedrock yang akan dievaluasi atau sertakan pengambilan sistem RAG kustom dalam set data prompt Anda, lalu pilih metriknya.

Tangkapan layar UI

Evaluasi FM untuk memilih yang terbaik untuk kasus penggunaan Anda

Evaluasi Model Amazon Bedrock memungkinkan Anda menggunakan evaluasi otomatis dan evaluasi manusia dalam memilih FM untuk kasus penggunaan tertentu. Evaluasi model otomatis (Terprogram) menggunakan set data terkurasi dan khusus serta menyediakan metrik yang telah ditentukan sebelumnya termasuk akurasi, ketahanan, dan toksisitas. Untuk metrik subjektif, Anda dapat menggunakan Amazon Bedrock untuk menyiapkan alur kerja evaluasi manusia dalam beberapa langkah cepat. Dengan evaluasi manusia, Anda dapat membawa set data Anda sendiri dan menentukan metrik kustom, seperti relevansi, gaya, dan keselarasan dengan suara merek. Alur kerja evaluasi manusia dapat menggunakan karyawan Anda sendiri sebagai peninjau atau Anda dapat melibatkan tim yang dikelola oleh AWS untuk melakukan evaluasi manusia, tempat AWS mempekerjakan evaluator terampil dan mengelola seluruh alur kerja atas nama Anda. Anda juga dapat menggunakan metode LLM-as-a-Judge untuk memberikan evaluasi berkualitas tinggi pada set data Anda dengan metrik seperti ketepatan, kelengkapan, kejujuran (halusinasi), serta metrik AI yang bertanggung jawab seperti penolakan jawaban dan deteksi bahaya. Anda dapat mengevaluasi model Bedrock atau model apa pun di mana saja dengan memasukkan respons inferensi Anda sendiri dalam set data prompt input Anda.

Tangkapan layar UI

Bandingkan hasil di beberapa tugas evaluasi untuk membuat keputusan lebih cepat

Gunakan fitur perbandingan dalam evaluasi untuk melihat hasil dari setiap perubahan yang Anda buat pada prompt, model yang dievaluasi, sistem RAG kustom, atau Basis Pengetahuan Bedrock Anda.

Tangkapan layar UI