Apa itu pembelajaran transfer?
Pembelajaran transfer (TL) adalah teknik machine learning (ML) ketika model yang telah dilatih sebelumnya pada satu tugas disempurnakan untuk tugas baru yang terkait. Melatih model ML baru adalah proses yang memakan waktu dan intensif yang membutuhkan sejumlah besar data, daya komputasi, dan beberapa iterasi sebelum siap untuk produksi. Sebaliknya, organisasi menggunakan TL untuk melatih kembali model yang ada pada tugas terkait dengan data baru. Misalnya, jika model machine learning dapat mengidentifikasi gambar kucing, ia dapat dilatih untuk mengidentifikasi kucing menggunakan kumpulan gambar yang lebih kecil yang menyoroti perbedaan fitur antara kucing dan kucing.
Apa manfaat pembelajaran transfer?
TL menawarkan beberapa manfaat berikut bagi peneliti yang membuat aplikasi ML.
Efisiensi yang ditingkatkan
Melatih model ML membutuhkan waktu saat mereka membangun pengetahuan dan mengidentifikasi pola. Ini juga membutuhkan kumpulan data yang besar dan mahal secara komputasi. Di TL, model pra-terlatih mempertahankan pengetahuan mendasar tentang tugas, fitur, bobot, dan fungsi, memungkinkannya beradaptasi dengan tugas baru lebih cepat. Anda dapat menggunakan set data yang jauh lebih kecil dan sumber daya yang lebih sedikit sambil mencapai hasil yang lebih baik.
Peningkatan aksesibilitas
Membangun jaringan neural pembelajaran mendalam membutuhkan volume data, sumber daya, daya komputasi, dan waktu yang besar. TL mengatasi hambatan penciptaan ini, memungkinkan organisasi untuk mengadopsi ML untuk kasus penggunaan khusus. Anda dapat menyesuaikan model yang ada dengan kebutuhan Anda dengan biaya yang lebih murah. Misalnya, menggunakan model pengenalan gambar yang telah dilatih sebelumnya, Anda dapat membuat model untuk analisis pencitraan medis, pemantauan lingkungan, atau pengenalan wajah dengan penyesuaian minimal.
Peningkatan performa
Model yang dikembangkan melalui TL sering menunjukkan ketahanan yang lebih besar di lingkungan yang beragam dan menantang. Mereka lebih baik menangani variabilitas dan kebisingan dunia nyata, setelah terkena berbagai skenario dalam pelatihan awal mereka. Mereka memberikan hasil yang lebih baik dan beradaptasi dengan kondisi yang tidak terduga dengan lebih fleksibel.
Apa strategi pembelajaran transfer yang berbeda?
Strategi yang Anda gunakan untuk memfasilitasi TL akan tergantung pada domain model yang Anda bangun, tugas yang perlu diselesaikan, dan ketersediaan data pelatihan.
Pembelajaran transfer transduktif
Pembelajaran transfer transduktif melibatkan transfer pengetahuan dari domain sumber tertentu ke domain target yang berbeda tetapi terkait, dengan fokus utamanya adalah pada domain target. Ini sangat berguna ketika ada sedikit atau tidak ada data berlabel dari domain target.
Pembelajaran transfer transduktif meminta model untuk membuat prediksi pada data target dengan menggunakan pengetahuan yang diperoleh sebelumnya. Karena data target secara matematis mirip dengan data sumber, model menemukan pola dan bekerja lebih cepat.
Misalnya, pertimbangkan untuk mengadaptasi model analisis sentimen yang dilatih pada ulasan produk untuk menganalisis ulasan film. Domain sumber (ulasan produk) dan domain target (ulasan film) berbeda dalam konteks dan spesifik tetapi memiliki kesamaan dalam struktur dan penggunaan bahasa. Model dengan cepat belajar menerapkan pemahamannya tentang sentimen dari domain produk ke domain film.
Pembelajaran transfer induktif
Pembelajaran transfer induktif adalah di mana domain sumber dan target sama, tetapi tugas yang harus diselesaikan model berbeda. Model pra-terlatih sudah terbiasa dengan data sumber dan melatih lebih cepat untuk fungsi baru.
Contoh pembelajaran transfer induktif adalah dalam pemrosesan bahasa alami (NLP). Model dilatih sebelumnya pada satu set besar teks dan kemudian disetel menggunakan pembelajaran transfer induktif ke fungsi tertentu seperti analisis sentimen. Demikian pula, model visi komputer seperti VGG telah dilatih sebelumnya pada set data gambar besar dan kemudian disetel untuk mengembangkan deteksi objek.
Pembelajaran transfer tanpa pengawasan
Pembelajaran transfer tanpa pengawasan menggunakan strategi yang mirip dengan pembelajaran transfer induktif untuk mengembangkan kemampuan baru. Namun, Anda menggunakan bentuk pembelajaran transfer ini ketika Anda hanya memiliki data tanpa label di domain sumber dan target.
Model mempelajari fitur umum dari data tanpa label untuk generalisasi lebih akurat ketika diminta untuk melakukan tugas target. Metode ini sangat membantu jika menantang atau mahal untuk mendapatkan data sumber berlabel.
Misalnya, pertimbangkan tugas mengidentifikasi berbagai jenis sepeda motor dalam gambar lalu lintas. Awalnya, model dilatih pada satu set besar gambar kendaraan tanpa label. Dalam hal ini, model secara independen menentukan kesamaan dan fitur yang membedakan antara berbagai jenis kendaraan seperti mobil, bus, dan sepeda motor. Selanjutnya, model ini diperkenalkan ke serangkaian gambar sepeda motor yang kecil dan spesifik. Kinerja model meningkat secara signifikan dibandingkan sebelumnya.
Apa langkah-langkah dalam pembelajaran transfer?
Ada tiga langkah utama saat menyempurnakan model pembelajaran mesin untuk tugas baru.
Pilih model pra-terlatih
Pertama, pilih model pra-terlatih dengan pengetahuan atau keterampilan sebelumnya untuk tugas terkait. Konteks yang berguna untuk memilih model yang sesuai adalah menentukan tugas sumber dari setiap model. Jika Anda memahami tugas asli yang dilakukan model, Anda dapat menemukan satu yang lebih efektif bertransisi ke tugas baru.
Konfigurasikan model pra-terlatih Anda
Setelah memilih model sumber Anda, konfigurasikan untuk meneruskan pengetahuan ke model untuk menyelesaikan tugas terkait. Ada dua metode utama untuk melakukan ini.
Bekukan lapisan pra-terlatih
Lapisan adalah blok bangunan jaringan neural. Setiap lapisan terdiri dari satu set neuron dan melakukan transformasi spesifik pada data input. Bobot adalah parameter yang digunakan jaringan untuk pengambilan keputusan. Awalnya diatur ke nilai acak, bobot disesuaikan selama proses pelatihan saat model belajar dari data.
Dengan membekukan bobot lapisan yang telah dilatih sebelumnya, Anda menjaganya tidak berubah, sehingga menjaga pengetahuan yang diperoleh model deep learning dari tugas sumber.
Hapus lapisan terakhir
Dalam beberapa kasus penggunaan, Anda juga dapat menghapus lapisan terakhir dari model yang telah dilatih sebelumnya. Di sebagian besar arsitektur ML, lapisan terakhir bersifat spesifik tugas. Menghapus lapisan akhir ini membantu Anda mengonfigurasi ulang model untuk persyaratan tugas baru.
Memperkenalkan lapisan baru
Memperkenalkan lapisan baru di atas model pra-terlatih membantu Anda beradaptasi dengan sifat khusus dari tugas baru. Lapisan baru menyesuaikan model dengan nuansa dan fungsi persyaratan baru.
Latih model untuk domain target
Anda melatih model pada data tugas target untuk mengembangkan output standarnya agar selaras dengan tugas baru. Model pra-terlatih kemungkinan menghasilkan output yang berbeda dari yang diinginkan. Setelah memantau dan mengevaluasi kinerja model selama pelatihan, Anda dapat menyesuaikan hyperparameter atau arsitektur jaringan neural dasar untuk meningkatkan output lebih lanjut. Tidak seperti bobot, hyperparameter tidak dipelajari dari data. Mereka sudah diatur sebelumnya dan memainkan peran penting dalam menentukan efisiensi dan efektivitas proses pelatihan. Misalnya, Anda dapat menyesuaikan parameter regularisasi atau tingkat pembelajaran model untuk meningkatkan kemampuannya dalam kaitannya dengan tugas target.
Apa strategi pembelajaran transfer dalam AI generatif?
Strategi pembelajaran transfer sangat penting untuk adopsi AI generatif di berbagai industri. Organisasi dapat menyesuaikan model dasar yang ada tanpa harus melatih model baru pada miliaran parameter data dalam skala besar. Berikut ini adalah beberapa strategi pembelajaran transfer yang digunakan dalam AI generatif.
Pelatihan permusuhan domain
Pelatihan permusuhan domain melibatkan pelatihan model dasar untuk menghasilkan data yang tidak dapat dibedakan dari data nyata dalam domain target. Teknik ini biasanya menggunakan jaringan diskriminator, seperti yang terlihat dalam jaringan adversarial generatif, yang mencoba membedakan antara data sejati dan data yang dihasilkan. Generator belajar untuk membuat data yang semakin realistis.
Misalnya, dalam pembuatan gambar, model yang dilatih pada foto mungkin diadaptasi untuk menghasilkan karya seni. Diskriminator membantu memastikan karya seni yang dihasilkan konsisten secara gaya dengan domain target.
Pembelajaran guru-siswa
Pembelajaran guru-siswa melibatkan model “guru” yang lebih besar dan lebih kompleks yang mengajarkan model “siswa” yang lebih kecil dan lebih sederhana. Model siswa belajar meniru perilaku model guru, secara efektif mentransfer pengetahuan. Ini berguna untuk menerapkan model generatif besar di lingkungan terbatas sumber daya.
Misalnya, model bahasa besar (LLM) dapat berfungsi sebagai guru ke model yang lebih kecil, yang mentransfer kemampuan generasi bahasanya. Ini akan memungkinkan model yang lebih kecil untuk menghasilkan teks berkualitas tinggi dengan overhead komputasi yang lebih sedikit.
Pelepasan fitur
Pelepasan fitur dalam model generatif melibatkan pemisahan berbagai aspek data, seperti konten dan gaya, menjadi representasi yang berbeda. Hal ini memungkinkan model untuk memanipulasi aspek-aspek ini secara independen dalam proses pembelajaran transfer.
Misalnya, dalam tugas pembuatan wajah, seorang model mungkin belajar memisahkan fitur wajah dari gaya artistik. Ini akan memungkinkannya untuk menghasilkan potret dalam berbagai gaya artistik sambil mempertahankan kemiripan subjek.
Pembelajaran transfer lintas modal
Pembelajaran transfer lintas modal melibatkan transfer pengetahuan antara modalitas yang berbeda, seperti teks dan gambar. Model generatif dapat mempelajari representasi yang berlaku di seluruh modalitas ini. Model yang dilatih pada deskripsi tekstual dan gambar yang sesuai mungkin belajar menghasilkan gambar yang relevan dari deskripsi teks baru, secara efektif mentransfer pemahamannya dari teks ke gambar.
Pembelajaran zero-shot dan few-shot
Dalam pembelajaran zero-shot dan few-shot, model generatif dilatih untuk melakukan tugas atau menghasilkan data yang telah mereka lihat sedikit atau tidak ada contohnya selama pelatihan. Ini dicapai dengan mempelajari representasi kaya yang menggeneralisasi dengan baik. Misalnya, model generatif mungkin dilatih untuk membuat gambar hewan. Menggunakan pembelajaran beberapa kali, ia dapat menghasilkan gambar hewan yang jarang terlihat dengan memahami dan menggabungkan fitur dari hewan lain.
Bagaimana AWS dapat membantu kebutuhan transfer pembelajaran Anda?
Amazon SageMaker JumpStart adalah sebuah hub ML di mana Anda dapat mengakses model yang telah dilatih sebelumnya, termasuk model fondasi, untuk melakukan tugas-tugas seperti ringkasan artikel dan pembuatan gambar. Anda dapat menggunakan pembelajaran transfer untuk menghasilkan model yang akurat pada set data yang lebih kecil, dengan biaya pelatihan yang lebih rendah daripada yang terlibat dalam melatih model asli. Misalnya, dengan SageMaker JumpStart, Anda dapat:
- Sesuaikan model pra-terlatih sepenuhnya untuk kasus penggunaan Anda dan dengan data Anda untuk deployment yang lebih cepat ke dalam produksi.
- Akses solusi pra-bangun untuk menyelesaikan kasus penggunaan umum.
- Bagikan artefak ML, termasuk model ML dan buku catatan, dalam organisasi Anda.
Saat menggunakan pendekatan pembelajaran transfer lintas modal, Anda juga dapat menggunakan Amazon SageMaker Debugger untuk mendeteksi masalah tersembunyi yang serius. Misalnya, Anda dapat memeriksa prediksi model untuk menemukan kesalahan, memvalidasi ketahanan model Anda, dan mempertimbangkan seberapa besar ketahanan ini berasal dari kemampuan yang diwariskan. Anda juga dapat memvalidasi input dan praproses ke model untuk harapan yang realistis.
Mulailah dengan pembelajaran transfer di AWS dengan membuat akun gratis hari ini.