Apa itu Retrieval-Augmented Generation?
Retrieval-Augmented Generation (RAG) adalah proses mengoptimalkan output dari model bahasa besar, sehingga mereferensikan basis pengetahuan otoritatif di luar sumber data pelatihannya sebelum menghasilkan respons. Model Bahasa Besar (LLM) dilatih pada volume data yang besar dan menggunakan miliaran parameter untuk menghasilkan output asli untuk tugas-tugas seperti menjawab pertanyaan, menerjemahkan bahasa, dan menyelesaikan kalimat. RAG memperluas kemampuan LLM yang sudah kuat ke domain tertentu atau basis pengetahuan internal organisasi, semua tanpa perlu melatih kembali model. Ini adalah pendekatan hemat biaya untuk meningkatkan output LLM sehingga tetap relevan, akurat, dan berguna dalam berbagai konteks.
Mengapa Retrieval-Augmented Generation penting?
LLM adalah teknologi kecerdasan buatan (AI) utama yang mendukung chatbot cerdas dan aplikasi pemrosesan bahasa alami (NLP) lainnya. Tujuannya adalah untuk membuat bot yang dapat menjawab pertanyaan pengguna dalam berbagai konteks dengan referensi silang sumber pengetahuan otoritatif. Sayangnya, sifat teknologi LLM memperkenalkan ketidakpastian dalam tanggapan LLM. Selain itu, data pelatihan LLM bersifat statis dan memperkenalkan tanggal batas pada pengetahuan yang dimilikinya.
Tantangan LLM yang diketahui meliputi:
- Menyajikan informasi palsu ketika tidak memiliki jawabannya.
- Menyajikan informasi yang sudah ketinggalan zaman atau umum ketika pengguna mengharapkan respons spesifik dan terkini.
- Membuat respons dari sumber non-otoritatif.
- Membuat tanggapan yang tidak akurat karena kebingungan terminologi, di mana sumber pelatihan yang berbeda menggunakan terminologi yang sama untuk membicarakan hal-hal yang berbeda.
Anda dapat menganggap Model Bahasa Besar sebagai karyawan baru yang terlalu antusias yang menolak untuk tetap mendapat informasi tentang peristiwa terkini tetapi akan selalu menjawab setiap pertanyaan dengan keyakinan mutlak. Sayangnya, sikap seperti itu dapat berdampak negatif terhadap kepercayaan pengguna dan bukan sesuatu yang Anda ingin chatbot Anda tiru!
RAG adalah salah satu pendekatan untuk memecahkan beberapa tantangan ini. Ini mengarahkan LLM untuk mengambil informasi yang relevan dari sumber pengetahuan yang otoritatif dan telah ditentukan sebelumnya. Organisasi memiliki kontrol yang lebih besar atas output teks yang dihasilkan, dan pengguna mendapatkan wawasan tentang bagaimana LLM menghasilkan respons.
Apa manfaat dari Retrieval-Augmented Generation?
Teknologi RAG membawa beberapa manfaat bagi upaya AI generatif suatu organisasi.
Implementasi hemat biaya
Pengembangan chatbot biasanya dimulai dengan menggunakan model dasar. Model fondasi (FM) adalah LLM yang dapat diakses API yang dilatih pada spektrum luas data umum dan tidak berlabel. Biaya komputasi dan keuangan untuk pelatihan ulang FM untuk informasi spesifik organisasi atau domain tinggi. RAG adalah pendekatan yang lebih hemat biaya untuk memperkenalkan data baru ke LLM. Ini membuat teknologi kecerdasan buatan generatif (AI generatif) lebih dapat diakses dan dapat digunakan secara luas.
Informasi terkini
Bahkan jika sumber data pelatihan asli untuk LLM cocok untuk kebutuhan Anda, sulit untuk mempertahankan relevansi. RAG memungkinkan pengembang untuk memberikan penelitian terbaru, statistik, atau berita ke model generatif. Mereka dapat menggunakan RAG untuk menghubungkan LLM secara langsung ke umpan media sosial langsung, situs berita, atau sumber informasi lain yang sering diperbarui. LLM kemudian dapat memberikan informasi terbaru kepada pengguna.
Kepercayaan pengguna yang ditingkatkan
RAG memungkinkan LLM untuk menyajikan informasi yang akurat dengan atribusi sumber. Output-nya dapat mencakup kutipan atau referensi ke sumber. Pengguna juga dapat mencari dokumen sumber sendiri jika mereka memerlukan klarifikasi lebih lanjut atau lebih detail. Ini dapat meningkatkan kepercayaan dan kepercayaan pada solusi AI generatif Anda.
Lebih banyak kontrol pengembang
Dengan RAG, pengembang dapat menguji dan meningkatkan aplikasi obrolan mereka dengan lebih efisien. Mereka dapat mengontrol dan mengubah sumber informasi LLM untuk beradaptasi dengan perubahan persyaratan atau penggunaan lintas fungsi. Pengembang juga dapat membatasi pengambilan informasi sensitif ke tingkat otorisasi yang berbeda dan memastikan LLM menghasilkan tanggapan yang sesuai. Selain itu, mereka juga dapat memecahkan masalah dan membuat perbaikan jika LLM mereferensikan sumber informasi yang salah untuk pertanyaan tertentu. Organisasi dapat menerapkan teknologi AI generatif dengan lebih percaya diri untuk berbagai aplikasi yang lebih luas.
Bagaimana cara kerja Retrieval-Augmented Generation?
Tanpa RAG, LLM mengambil input pengguna dan membuat respons berdasarkan informasi yang dilatihkan—atau apa yang sudah diketahuinya. Dengan RAG, komponen pengambilan informasi diperkenalkan yang memanfaatkan input pengguna untuk pertama kali menarik informasi dari sumber data baru. Permintaan pengguna dan informasi yang relevan keduanya diberikan kepada LLM. LLM menggunakan pengetahuan baru dan data pelatihannya untuk menciptakan respons yang lebih baik. Bagian berikut memberikan gambaran umum proses.
Buat data eksternal
Data baru di luar kumpulan data pelatihan asli LLM disebut data eksternal. Ini dapat berasal dari beberapa sumber data, seperti API, basis data, atau repositori dokumen. Data mungkin ada dalam berbagai format seperti file, catatan basis data, atau teks bentuk panjang. Teknik AI lain, yang disebut model bahasa penyematan, mengubah data menjadi representasi numerik dan menyimpannya dalam basis data vektor. Proses ini menciptakan perpustakaan pengetahuan yang dapat dipahami oleh model AI generatif.
Ambil informasi yang relevan
Langkah selanjutnya adalah melakukan pencarian relevansi. Kueri pengguna dikonversi ke representasi vektor dan dicocokkan dengan basis data vektor. Misalnya, pertimbangkan chatbot pintar yang dapat menjawab pertanyaan sumber daya manusia untuk suatu organisasi. Jika seorang karyawan mencari, "Berapa cuti tahunan yang saya miliki?" sistem akan mengambil dokumen kebijakan cuti tahunan di samping catatan cuti masa lalu masing-masing karyawan. Dokumen-dokumen khusus ini akan dikembalikan karena sangat relevan dengan masukan karyawan. Relevansi dihitung dan ditetapkan menggunakan perhitungan vektor matematika dan representasi.
Tingkatkan prompt LLM
Selanjutnya, model RAG menambah input pengguna (atau prompt) dengan menambahkan data yang diambil yang relevan dalam konteks. Langkah ini menggunakan teknik rekayasa perintah untuk berkomunikasi secara efektif dengan LLM. Prompt yang diperbesar memungkinkan model bahasa besar untuk menghasilkan jawaban yang akurat untuk pertanyaan pengguna.
Perbarui data eksternal
Pertanyaan selanjutnya mungkin—bagaimana jika data eksternal menjadi basi? Untuk mempertahankan informasi terkini untuk pengambilan, perbarui dokumen secara asinkron dan perbarui representasi penyematan dokumen. Anda dapat melakukan ini melalui proses waktu nyata otomatis atau pemrosesan batch berkala. Ini adalah tantangan umum dalam analisis data—pendekatan sains data yang berbeda untuk manajemen perubahan dapat digunakan.
Diagram berikut menunjukkan aliran konseptual menggunakan RAG dengan LLM.
Apa perbedaan antara Retrieval-Augmented Generation dan pencarian semantik?
Pencarian semantik meningkatkan hasil RAG untuk organisasi yang ingin menambahkan sumber pengetahuan eksternal yang luas ke aplikasi LLM mereka. Korporasi modern menyimpan informasi yang sangat luas—seperti manual, FAQ, laporan penelitian, panduan layanan pelanggan, dan repositori dokumentasi sumber daya manusia di berbagai sistem. Pengambilan konteks menantang dalam skala besar dan akibatnya menurunkan kualitas keluaran generatif.
Teknologi pencarian semantik dapat memindai basis data besar informasi yang berbeda dan mengambil data dengan lebih akurat. Misalnya, mereka dapat menjawab pertanyaan seperti, “Berapa banyak yang dihabiskan untuk perbaikan mesin tahun lalu?”dengan memetakan pertanyaan ke dokumen yang relevan dan mengembalikan teks tertentu alih-alih hasil pencarian. Pengembang kemudian dapat menggunakan jawaban itu untuk memberikan lebih banyak konteks untuk LLM.
Solusi pencarian konvensional atau kata kunci di RAG menghasilkan hasil terbatas untuk tugas-tugas intensif pengetahuan. Pengembang juga harus berurusan dengan penyematan kata, pemotongan dokumen, dan kompleksitas lainnya saat mereka menyiapkan data mereka secara manual. Sebaliknya, teknologi pencarian semantik melakukan semua pekerjaan persiapan basis pengetahuan sehingga pengembang tidak perlu melakukannya. Mereka juga menghasilkan bagian-bagian yang relevan secara semantik dan kata-kata token yang diurutkan berdasarkan relevansi untuk memaksimalkan kualitas muatan RAG.
Bagaimana AWS dapat mendukung persyaratan Retrieval-Augmented Generation Anda?
Amazon Bedrock adalah layanan terkelola penuh yang menawarkan pilihan model fondasi performa tinggi beserta beragam kemampuan untuk membangun aplikasi AI generatif, sembari menyederhanakan pengembangan dan mempertahankan privasi dan keamanan. Dengan basis pengetahuan untuk Amazon Bedrock, Anda dapat menghubungkan FM ke sumber data untuk RAG hanya dengan beberapa klik. Konversi vektor, pengambilan, dan peningkatan produksi output semuanya ditangani secara otomatis.
Untuk organisasi yang mengelola RAG mereka sendiri, Amazon Kendra adalah layanan pencarian perusahaan yang sangat akurat yang didukung oleh machine learning. Ini menyediakan Retrieve API Kendra yang dioptimalkan yang dapat Anda gunakan dengan ranker semantik akurasi tinggi Amazon Kendra sebagai pengambil perusahaan untuk alur kerja RAG Anda. Misalnya, dengan Retrieve API, Anda dapat:
- Ambil hingga 100 bagian yang relevan secara semantik masing-masing hingga 200 kata token, diurutkan berdasarkan relevansi.
- Gunakan konektor yang sudah dibuat sebelumnya untuk teknologi data populer seperti Amazon Simple Storage Service, SharePoint, Confluence, dan situs web lainnya.
- Mendukung berbagai format dokumen seperti HTML, Word, PowerPoint, PDF, Excel, dan file teks.
- Filter tanggapan berdasarkan dokumen-dokumen yang diizinkan oleh izin pengguna akhir.
Amazon juga menawarkan opsi untuk organisasi yang ingin membangun lebih banyak solusi AI generatif khusus. Amazon SageMaker JumpStart adalah hub ML dengan FM, algoritma bawaan, dan solusi ML bawaan yang dapat Anda terapkan hanya dengan beberapa klik. Anda dapat mempercepat implementasi RAG dengan merujuk pada buku catatan dan contoh kode SageMaker yang ada.
Mulailah dengan Retrieval-Augmented Generation di AWS dengan membuat akun gratis hari ini