Apa itu Augmentasi Data?
Augmentasi data adalah proses menghasilkan data baru secara artifisial dari data yang ada, terutama untuk melatih model machine learning (ML) baru. Model ML membutuhkan set data yang besar dan beragam untuk pelatihan awal, tetapi mendapatkan set data dunia nyata yang cukup beragam menjadi tantangan tersendiri karena adanya silo data, peraturan, dan keterbatasan lainnya. Augmentasi data secara artifisial meningkatkan set data dengan membuat perubahan kecil pada data asli. Solusi kecerdasan buatan (AI) generatif kini digunakan untuk augmentasi data berkualitas tinggi dan cepat di berbagai industri.
Mengapa augmentasi data penting?
Model deep learning mengandalkan data yang beragam dalam jumlah besar untuk mengembangkan prediksi yang akurat dalam berbagai konteks. Augmentasi data melengkapi pembuatan variasi data yang dapat membantu model meningkatkan keakuratan prediksinya. Data tambahan sangat penting dalam pelatihan.
Berikut adalah beberapa manfaat dari augmentasi data.
Meningkatkan performa model
Teknik augmentasi data membantu memperkaya set data dengan menciptakan banyak variasi data yang ada. Hal ini menyediakan set data yang lebih besar untuk pelatihan dan memungkinkan model untuk menemukan fitur yang lebih beragam. Data tambahan membantu model melakukan generalisasi yang lebih baik terhadap data yang tidak terlihat dan meningkatkan seluruh performanya dalam lingkungan dunia nyata.
Mengurangi dependensi data
Pengumpulan dan persiapan volume data yang besar untuk pelatihan membutuhkan biaya yang besar dan waktu yang lama. Teknik augmentasi data meningkatkan efektivitas set data yang lebih kecil sehingga sangat mengurangi ketergantungan pada set data besar di lingkungan pelatihan. Anda dapat menggunakan set data yang lebih kecil untuk melengkapi set dengan titik data sintetis.
Mengurangi overfitting dalam data pelatihan
Augmentasi data membantu mencegah overfitting ketika Anda melatih model ML. Overfitting adalah perilaku ML yang tidak diinginkan saat sebuah model dapat memberikan prediksi secara akurat untuk data pelatihan, tetapi kesulitan dengan data baru. Jika sebuah model hanya dilatih dengan set data yang terbatas, maka model tersebut dapat menjadi overfit dan hanya dapat memberikan prediksi yang terkait dengan tipe data tertentu. Sebaliknya, augmentasi data menyediakan set data yang jauh lebih besar dan lebih komprehensif untuk pelatihan model. Hal ini membuat set pelatihan tampak unik untuk jaringan neural dalam sehingga set pelatihan tidak hanya bekerja dengan karakteristik tertentu.
Meningkatkan privasi data
Jika perlu melatih model deep learning pada data sensitif, Anda dapat menggunakan teknik augmentasi pada data yang ada untuk membuat data sintetis. Data tambahan ini mempertahankan sifat dan bobot statistik data input sekaligus melindungi dan membatasi akses ke data yang asli.
Apa saja kasus penggunaan augmentasi data?
Augmentasi data menawarkan beberapa aplikasi di berbagai industri sehingga meningkatkan performa model ML di banyak sektor.
Layanan kesehatan
Augmentasi data adalah teknologi yang berguna dalam pencitraan medis karena membantu meningkatkan model diagnostik yang mendeteksi, mengenali, dan mendiagnosis penyakit berdasarkan citra. Pembuatan gambar tambahan memberikan data pelatihan yang lebih banyak untuk model, terutama untuk penyakit langka yang tidak memiliki variasi data sumber. Produksi dan penggunaan data pasien sintetis memajukan penelitian medis dengan tetap menghormati semua pertimbangan privasi data.
Keuangan
Augmentasi membantu menghasilkan instans sintetis dari penipuan sehingga model dapat dilatih untuk mendeteksi penipuan secara lebih akurat dalam skenario dunia nyata. Kumpulan data pelatihan yang lebih besar membantu skenario penilaian risiko, yang meningkatkan potensi model deep learning untuk menilai risiko secara akurat dan memprediksi tren pada masa mendatang.
Manufaktur
Industri manufaktur menggunakan model ML untuk mengidentifikasi cacat visual dalam produk. Dengan melengkapi data dunia nyata dengan gambar tambahan, model dapat meningkatkan kemampuan pengenalan gambar dan menemukan potensi cacat. Strategi ini juga mengurangi kemungkinan pengiriman proyek yang rusak atau cacat ke pabrik dan jalur produksi.
Ritel
Lingkungan ritel menggunakan model untuk mengidentifikasi produk dan mengelompokkannya ke dalam kategori berdasarkan faktor visual. Augmentasi data dapat menghasilkan variasi data sintetis dari gambar produk sehingga menghasilkan set pelatihan dengan lebih banyak variasi dalam hal kondisi pencahayaan, latar belakang gambar, dan sudut produk.
Bagaimana cara kerja augmentasi data?
Augmentasi data mengubah, mengedit, atau memodifikasi data yang ada untuk membuat variasi. Berikut ini adalah gambaran umum singkat dari proses tersebut.
Eksplorasi set data
Tahap pertama augmentasi data adalah menganalisis set data yang ada dan memahami karakteristiknya. Fitur-fitur seperti ukuran gambar input, distribusi data, atau struktur teks, semuanya memberikan konteks lanjutan untuk augmentasi.
Teknik augmentasi data yang berbeda dapat dipilih berdasarkan jenis data yang mendasarinya dan hasil yang diinginkan. Sebagai contoh, menambah set data dengan banyak gambar termasuk menambahkan derau pada gambar tersebut, melakukan penskalaan, atau memotongnya. Selain itu, menambah set data teks untuk pemrosesan bahasa alami (NLP) menggantikan sinonim atau kutipan parafrasa.
Baca tentang pemrosesan bahasa alami
Augmentasi data yang ada
Setelah memilih teknik augmentasi data yang paling sesuai dengan tujuan yang Anda inginkan, transformasi yang berbeda dapat diterapkan. Titik data atau sampel citra dalam set data diubah menggunakan metode augmentasi yang Anda pilih sehingga menghasilkan berbagai sampel tambahan yang baru.
Selama proses augmentasi, Anda mempertahankan aturan pelabelan yang sama untuk konsistensi data supaya memastikan bahwa data sintetis menyertakan label yang sama yang sesuai dengan data sumber.
Biasanya, untuk mengetahui apakah transformasi berhasil, Anda dapat melihat gambar sintetisnya. Langkah tambahan yang dipandu oleh manusia ini membantu menjaga kualitas data yang lebih tinggi.
Integrasikan formulir data
Selanjutnya, Anda menggabungkan data baru yang telah ditambah dengan data asli untuk menghasilkan set data pelatihan yang lebih besar untuk model ML. Saat melatih model, Anda menggunakan set data gabungan dari kedua jenis data ini.
Penting untuk diperhatikan bahwa titik data baru yang dibuat dengan augmentasi data sintetis memiliki bias yang sama dengan data input asli. Agar bias tidak berpindah ke data baru Anda, tangani setiap bias pada data sumber sebelum memulai proses augmentasi data.
Apa saja teknik augmentasi data?
Teknik augmentasi data berbeda-beda di berbagai tipe data dan konteks bisnis yang berbeda.
Penglihatan komputer
Augmentasi data adalah teknik sentral dalam tugas penglihatan komputer. Teknik ini membantu menciptakan representasi data yang beragam dan mengatasi ketidakseimbangan kelas dalam set data pelatihan.
Penggunaan augmentasi pertama dalam penglihatan komputer adalah melalui augmentasi posisi. Strategi ini memotong, membalik, atau memutar gambar input untuk membuat gambar tambahan. Memotong adalah mengubah ukuran gambar atau memotong sebagian kecil gambar asli untuk membuat gambar baru. Transformasi memutar, membalik, dan mengubah ukuran, semuanya mengubah gambar asli secara acak dengan probabilitas tertentu untuk menghasilkan gambar yang baru.
Dalam penglihatan komputer, augmentasi lain yang digunakan adalah augmentasi warna. Strategi ini menyesuaikan faktor dasar gambar pelatihan, seperti kecerahan, tingkat kontras, atau saturasi. Transformasi gambar yang umum ini mengubah rona warna, komposisi gelap dan terang, serta pemisahan antara area gambar yang paling gelap dan paling terang untuk menciptakan gambar tambahan.
Baca tentang penglihatan komputer
Augmentasi data audio
File audio, seperti rekaman suara, juga merupakan bidang yang umum untuk menggunakan augmentasi data. Transformasi audio biasanya mencakup penambahan noise acak atau Gaussian ke dalam sebagian audio, mempercepat bagian audio, mengubah kecepatan bagian audio dengan kecepatan tetap, atau mengubah nada.
Augmentasi data teks
Augmentasi teks adalah teknik augmentasi data penting untuk NLP dan sektor ML terkait teks lainnya. Transformasi data teks meliputi mengacak kalimat, mengubah posisi kata, mengganti kata dengan sinonim kata yang hampir sama, menyisipkan kata acak, dan menghapus kata acak.
Transfer gaya neural
Transfer gaya neural adalah bentuk lanjutan dari augmentasi data yang mendekonstruksi gambar menjadi bagian-bagian yang lebih kecil. Teknik ini menggunakan serangkaian lapisan konvolusi yang memisahkan gaya dan konteks gambar sehingga menghasilkan banyak gambar dari satu gambar.
Pelatihan adversarial
Perubahan pada tingkat piksel merupakan tantangan tersendiri bagi model ML. Sebagian sampel menyertakan lapisan noise yang tidak terlihat di atas gambar untuk menguji kemampuan model dalam melihat gambar di bawahnya. Strategi ini adalah bentuk pencegahan augmentasi data yang berfokus pada potensi akses tidak sah di dunia nyata.
Apa peran AI generatif dalam augmentasi data?
AI generatif sangat penting dalam augmentasi data karena memfasilitasi produksi data sintetis. AI generatif membantu meningkatkan keragaman data, menyederhanakan pembuatan data realistis, dan menjaga privasi data.
Generative adversarial networks
Genrrative adversarial network (GAN) adalah kerangka kerja dari dua jaringan neural pusat yang bekerja secara berlawanan. Generator menghasilkan sampel data sintetis, lalu diskriminator membedakan antara data nyata dan sampel sintetis.
Seiring waktu, GAN terus meningkatkan output generator dengan berfokus pada penipuan diskriminator. Data yang dapat mengecoh diskriminator dianggap sebagai data sintetis berkualitas tinggi, yang menyediakan augmentasi data dengan sampel yang sangat andal yang sangat mirip dengan distribusi data asli.
Variational autoencoders
Variational autoencoders (VAE) adalah tipe jaringan neural yang membantu meningkatkan ukuran sampel data inti dan mengurangi kebutuhan pengumpulan data yang memakan waktu. VAE memiliki dua jaringan yang terhubung: dekoder dan enkoder. Enkoder mengambil citra sampel dan menerjemahkannya ke dalam representasi perantara. Dekoder mengambil representasi dan membuat ulang gambar yang serupa berdasarkan pemahamannya mengenai sampel awal. VAE berguna karena dapat membuat data yang sangat mirip dengan data sampel sehingga membantu menambah variasi sambil mempertahankan distribusi data asli.
Bagaimana AWS dapat mendukung kebutuhan augmentasi data Anda?
Layanan AI generatif di Amazon Web Services (AWS) adalah rangkaian teknologi yang dapat digunakan oleh organisasi berbagai ukuran untuk membangun dan menskalakan aplikasi AI generatif dengan data yang disesuaikan untuk kasus penggunaan khusus. Anda dapat berinovasi lebih cepat dengan kemampuan baru, pilihan model fondasi (FM) yang terkemuka di industri, dan infrastruktur yang paling hemat biaya. Berikut ini adalah dua contoh layanan AI generatif di AWS.
Amazon Bedrock adalah layanan terkelola penuh yang menawarkan pilihan FM beperforma tinggi dari perusahaan AI terkemuka. Anda dapat dengan aman mengintegrasikan dan melakukan deployment kemampuan AI generatif untuk augmentasi data tanpa perlu mengelola infrastruktur.
Amazon Rekognition adalah layanan AI terkelola penuh yang menawarkan kemampuan penglihatan komputer yang dapat dilatih sebelumnya dan disesuaikan untuk mengekstraksi informasi dan wawasan dari gambar dan video Anda. Pengembangan model kustom untuk menganalisis gambar adalah pekerjaan yang signifikan yang membutuhkan waktu, keahlian, dan sumber daya. Sering kali diperlukan ribuan atau puluhan ribu gambar yang pelabelannya dilakukan secara manual untuk menyediakan data yang cukup bagi model agar dapat mengambil keputusan secara akurat.
Dengan Amazon Rekognition Custom Labels, berbagai augmentasi data dilakukan untuk pelatihan model, termasuk pemotongan acak gambar, jittering warna, dan noise Gaussian acak. Alih-alih ribuan gambar, Anda hanya perlu mengunggah sekumpulan kecil gambar latihan (biasanya beberapa ratus atau kurang) yang spesifik untuk kasus penggunaan Anda ke konsol yang mudah digunakan.
Mulai augmentasi data di AWS dengan membuat akun sekarang juga.