Apa itu rekayasa fitur?

Fitur model adalah input yang digunakan model machine learning (ML) selama pelatihan dan inferensi untuk membuat prediksi. Akurasi model ML bergantung pada kumpulan dan komposisi fitur yang tepat. Misalnya, dalam aplikasi ML yang merekomendasikan daftar putar musik, fitur dapat mencakup peringkat lagu, lagu mana yang didengarkan sebelumnya, dan waktu mendengarkan lagu. Dibutuhkan upaya rekayasa yang signifikan untuk membuat fitur. Rekayasa fitur melibatkan ekstraksi dan transformasi variabel dari data mentah, seperti daftar harga, deskripsi produk, dan volume penjualan agar Anda dapat menggunakan fitur untuk pelatihan dan prediksi. Langkah yang diperlukan untuk merekayasa fitur mencakup ekstraksi dan pembersihan data, lalu pembuatan serta penyimpanan fitur.

Apa saja tantangan dari rekayasa fitur?

Rekayasa fitur sangat menantang karena melibatkan kombinasi antara analisis data, pengetahuan domain bisnis, dan intuisi. Saat membuat fitur, langsung membuka data yang tersedia memang mudah untuk dilakukan, namun langkah yang umumnya dilakukan adalah Anda harus memulai dengan mempertimbangkan data mana yang diperlukan dengan berbicara dengan para ahli, melakukan brainstorming, dan melakukan penelitian dengan melibatkan pihak ketiga. Tanpa melalui ini, Anda bisa saja melewatkan variabel prediktor yang penting.

Ekstraksi data

Pengumpulan data adalah proses mengumpulkan semua data yang diperlukan untuk ML. Pengumpulan data bisa membosankan karena data berada di banyak sumber data, termasuk di laptop, di gudang data, di cloud, di dalam aplikasi, dan di perangkat. Menemukan cara untuk terhubung ke sumber data yang berbeda dapat menjadi tantangan. Volume data juga meningkat secara eksponensial, sehingga ada banyak data yang harus dicari. Selain itu, data memiliki format dan tipe yang sangat berbeda tergantung sumbernya. Misalnya, data video dan data tabulasi tidak mudah untuk digunakan secara bersama-sama.

Pembuatan fitur

Pelabelan data merupakan proses mengidentifikasi data mentah (gambar, file teks, video, dll.) serta menambahkan satu atau beberapa label bermakna dan informatif untuk memberikan konteks agar model ML dapat belajar darinya. Misalnya, label mungkin menunjukkan apakah foto berisi burung atau mobil, kata-kata apa yang diucapkan dalam rekaman audio, atau apakah sinar-x menemukan ketidakteraturan. Pelabelan data diperlukan untuk berbagai kasus penggunaan, termasuk penglihatan komputer, pemrosesan bahasa alami, dan pengenalan ucapan.

Penyimpanan fitur

Setelah data dibersihkan dan diberi label, tim ML sering kali menjelajahi data untuk memastikan data sudah benar dan siap untuk ML. Visualisasi seperti histogram, plot sebar, plot kotak dan garis, plot garis, dan diagram batang adalah alat yang berguna untuk mengonfirmasi kebenaran data. Selain itu, visualisasi juga membantu tim ilmu data menyelesaikan analisis data eksplorasi. Proses ini menggunakan visualisasi untuk menemukan pola, menemukan anomali, menguji hipotesis, atau memeriksa asumsi. Analisis data eksplorasi tidak memerlukan pemodelan formal; sebagai gantinya, tim ilmu data dapat menggunakan visualisasi untuk menguraikan data. 

Bagaimana AWS dapat membantu rekayasa fitur?

Dengan Amazon SageMaker Data Wrangler, Anda dapat menyederhanakan proses rekayasa fitur menggunakan satu antarmuka visual. Menggunakan alat pemilihan data SageMaker Data Wrangler, Anda dapat memilih data mentah yang Anda inginkan dari berbagai sumber data dan mengimpornya dengan satu klik. SageMaker Data Wrangler berisi lebih dari 300 transformasi data bawaan sehingga Anda dapat dengan cepat menormalkan, mengubah, dan menggabungkan fitur tanpa harus menulis kode apa pun. Setelah data Anda siap, Anda dapat membangun alur kerja ML yang sepenuhnya otomatis dengan Amazon SageMaker Pipelines dan menyimpannya untuk digunakan kembali di Amazon SageMaker Feature Store. SageMaker Feature Store adalah repositori yang dibuat khusus, tempat Anda dapat menyimpan dan mengakses fitur sehingga lebih mudah untuk memberi nama, mengatur, dan menggunakannya kembali di seluruh tim. SageMaker Feature Store menyediakan penyimpanan terpadu untuk fitur selama pelatihan dan inferensi waktu nyata tanpa perlu menulis kode tambahan atau membuat proses manual guna menjaga fitur tetap konsisten.

Langkah berikutnya di AWS

Lihat sumber daya terkait produk tambahan
Dukungan AWS untuk Rekayasa Fitur 
Daftar untuk akun gratis

Dapatkan akses secara instan ke AWS Tingkat Gratis.

Daftar 
Mulai membangun di konsol

Mulai membangun di konsol manajemen AWS.

Masuk