Apa itu regresi logistik?
Regresi logistik adalah teknik analisis data yang menggunakan matematika untuk menemukan hubungan antara dua faktor data. Kemudian menggunakan hubungan ini untuk memprediksi nilai dari salah satu faktor tersebut berdasarkan faktor yang lain. Prediksi biasanya memiliki jumlah hasil yang terbatas, seperti ya atau tidak.
Misalnya, Anda ingin menebak apakah pengunjung situs web akan mengeklik tombol checkout di keranjang belanja mereka atau tidak. Analisis regresi logistik melihat perilaku pengunjung di masa lalu, seperti waktu yang dihabiskan di situs web dan jumlah item di keranjang. Analisis regresi logistik menentukan bahwa, di masa lalu, jika pengunjung menghabiskan lebih dari lima menit di situs web dan menambahkan lebih dari tiga item ke keranjang, pengunjung akan mengeklik tombol checkout. Dengan menggunakan informasi ini, fungsi regresi logistik dapat memprediksi perilaku pengunjung baru di situs web.
Mengapa regresi logistik penting?
Regresi logistik adalah teknik yang penting di bidang kecerdasan buatan dan machine learning (AI/ML). Model ML adalah program perangkat lunak yang dapat Anda latih untuk melakukan tugas pemrosesan data rumit tanpa campur tangan manusia. Model ML yang dibangun menggunakan regresi logistik membantu organisasi mendapatkan wawasan yang dapat ditindaklanjuti dari data bisnis mereka. Mereka dapat menggunakan wawasan ini untuk analisis prediktif untuk mengurangi biaya operasional, meningkatkan efisiensi, dan menskalakan dengan lebih cepat. Misalnya, bisnis dapat mengungkap pola yang meningkatkan retensi karyawan atau mengarah pada desain produk yang lebih menguntungkan.
Di bawah ini, kami mencantumkan beberapa manfaat menggunakan regresi logistik dibandingkan teknik ML lainnya.
Kesederhanaan
Model regresi logistik secara matematis tidak terlalu rumit dibandingkan metode ML lainnya. Oleh karena itu, Anda dapat mengimplementasikannya meskipun tidak ada seorang pun di tim Anda yang memiliki keahlian ML mendalam.
Kecepatan
Model regresi logistik dapat memproses data dalam volume besar dengan kecepatan tinggi karena membutuhkan kapasitas komputasi yang lebih sedikit, seperti memori dan daya pemrosesan. Ini membuat model tersebut sangat cocok untuk organisasi yang memulai proyek ML untuk mendapatkan beberapa solusi dengan hasil yang cepat.
Fleksibilitas
Anda dapat menggunakan regresi logistik untuk menemukan jawaban atas pertanyaan yang memiliki dua atau beberapa hasil yang terbatas. Anda juga dapat menggunakannya untuk memproses data. Misalnya, Anda dapat mengurutkan data dengan berbagai rentang nilai, seperti transaksi bank, menjadi rentang nilai yang lebih kecil dan terbatas dengan menggunakan regresi logistik. Anda lalu dapat memproses set data yang lebih kecil ini dengan menggunakan teknik ML lainnya untuk analisis yang lebih akurat.
Visibilitas
Analisis regresi logistik memberikan visibilitas yang lebih besar ke dalam proses perangkat lunak internal kepada developer dibandingkan teknik analisis data lainnya. Pemecahan masalah dan koreksi kesalahan juga lebih mudah karena perhitungannya tidak terlalu rumit.
Apa saja aplikasi regresi logistik?
Regresi logistik memiliki beberapa penerapan dunia nyata di banyak industri yang berbeda.
Manufaktur
Perusahaan manufaktur menggunakan analisis regresi logistik untuk memperkirakan kemungkinan kegagalan di bagian dalam mesin. Mereka lalu merencanakan jadwal pemeliharaan berdasarkan perkiraan ini untuk meminimalkan kegagalan di masa depan.
Layanan Kesehatan
Peneliti medis merencanakan perawatan pencegahan dan pengobatan dengan memprediksi kemungkinan penyakit pada pasien. Mereka menggunakan model regresi logistik untuk membandingkan dampak riwayat keluarga atau gen pada penyakit.
Keuangan
Perusahaan keuangan harus menganalisis transaksi keuangan terkait penipuan dan menilai pengajuan pinjaman serta pengajuan asuransi untuk risiko. Masalah-masalah ini cocok untuk model regresi logistik karena masalah ini memiliki hasil yang terpisah, seperti risiko tinggi atau risiko rendah dan penipuan atau nonpenipuan.
Pemasaran
Alat pengiklan online menggunakan model regresi logistik untuk memprediksi jika pengguna akan mengeklik iklan. Akibatnya, pemasar dapat menganalisis respons pengguna terhadap berbagai kata dan gambar, serta membuat iklan berperforma tinggi yang akan digunakan pelanggan.
Bagaimana cara kerja analisis regresi?
Regresi logistik adalah salah satu dari beberapa teknik analisis regresi yang berbeda yang biasa digunakan ilmuwan data pada machine learning (ML). Untuk memahami regresi logistik, pertama-tama kita harus memahami analisis regresi dasar. Di bawah ini, kami menggunakan contoh analisis regresi linier untuk menunjukkan cara kerja analisis regresi.
Identifikasi pertanyaannya
Setiap analisis data dimulai dengan pertanyaan bisnis. Untuk regresi logistik, Anda harus membingkai pertanyaan untuk mendapatkan hasil tertentu:
- Apakah hari hujan berdampak pada penjualan bulanan kami? (ya atau tidak)
- Jenis aktivitas kartu kredit apa yang dilakukan pelanggan? (resmi, curang, atau berpotensi curang)
Kumpulkan data historis
Setelah mengidentifikasi pertanyaan, Anda perlu mengidentifikasi faktor data yang terlibat. Anda lalu akan mengumpulkan data masa lalu untuk semua faktor. Misalnya, untuk menjawab pertanyaan pertama yang ditunjukkan di atas, Anda dapat menghitung jumlah hari hujan dan data penjualan bulanan Anda untuk setiap bulan dalam tiga tahun terakhir.
Latih model analisis regresi
Anda akan memproses data historis menggunakan perangkat lunak regresi. Perangkat lunak ini akan memproses titik data yang berbeda dan menghubungkannya secara matematis dengan menggunakan persamaan. Misalnya, jika jumlah hari hujan selama tiga bulan adalah 3, 5, dan 8 dan jumlah penjualan pada bulan-bulan tersebut adalah 8, 12, dan 18, algoritme regresi akan menghubungkan faktor-faktor dengan persamaan:
Jumlah Penjualan = 2* (Jumlah Hari Hujan) + 2
Buat prediksi untuk nilai yang tidak diketahui
Untuk nilai yang tidak diketahui, perangkat lunak menggunakan persamaan untuk membuat prediksi. Jika Anda tahu bahwa hujan akan turun selama enam hari pada bulan Juli, perangkat lunak akan memperkirakan nilai penjualan bulan Juli adalah 14.
Bagaimana cara kerja model regresi logistik?
Untuk memahami model regresi logistik, pertama-tama mari kita memahami persamaan dan variabel.
Persamaan
Dalam matematika, persamaan memberikan hubungan antara dua variabel: x dan y. Anda dapat menggunakan persamaan ini, atau fungsi, untuk menyusun plot grafik sepanjang sumbu x dan sumbu y dengan menempatkan nilai yang berbeda dari x dan y. Misalnya, jika Anda menyusun plot grafik untuk fungsi y = 2*x, Anda akan mendapatkan garis lurus seperti yang ditunjukkan di bawah ini. Oleh karena itu, fungsi ini juga disebut fungsi linier.
Variabel
Dalam statistik, variabel adalah faktor atau atribut data yang nilainya bervariasi. Untuk analisis apa pun, variabel tertentu adalah variabel independen atau eksplanatori. Atribut ini adalah penyebab dari suatu hasil. Variabel lain adalah variabel dependen atau respons; nilainya bergantung pada variabel independen. Secara umum, regresi logistik mengeksplorasi cara variabel independen memengaruhi satu variabel dependen dengan melihat nilai data historis dari kedua variabel.
Dalam contoh kita di atas, x disebut variabel independen, variabel prediktor, atau variabel eksplanatori karena memiliki nilai yang diketahui. Y disebut variabel dependen, variabel hasil, atau variabel respons karena nilainya tidak diketahui.
Fungsi regresi logistik
Regresi logistik adalah model statistik yang menggunakan fungsi logistik, atau fungsi logit, dalam matematika sebagai persamaan antara x dan y. Fungsi logit memetakan y sebagai fungsi sigmoid dari x.
Jika Anda menyusun plot persamaan regresi logistik ini, Anda akan mendapatkan kurva S seperti yang ditunjukkan di bawah ini.
Seperti yang Anda lihat, fungsi logit mengembalikan hanya nilai-nilai antara 0 dan 1 untuk variabel dependen, terlepas dari nilai-nilai variabel independen. Ini adalah cara regresi logistik memperkirakan nilai variabel dependen. Metode regresi logistik juga memodelkan persamaan antara beberapa variabel independen dan satu variabel dependen.
Analisis regresi logistik dengan beberapa variabel independen
Dalam banyak kasus, beberapa variabel eksplanatori memengaruhi nilai variabel dependen. Untuk memodelkan set data input tersebut, rumus regresi logistik mengasumsikan hubungan linier antara variabel independen yang berbeda. Anda dapat memodifikasi fungsi sigmoid dan menghitung variabel output akhir sebagai
y = f(β0 + β1x1 + β2x2+… βnxn)
Simbol β mewakili koefisien regresi. Model logit dapat menghitung balik nilai koefisien ini ketika Anda memberikan set data eksperimental yang cukup besar dengan nilai yang diketahui dari variabel dependen dan independen.
Log odds
Model logit juga dapat menentukan rasio keberhasilan terhadap kegagalan atau log odds. Misalnya, jika Anda bermain poker dengan teman-teman dan Anda memenangkan empat pertandingan dari 10, peluang Anda untuk menang adalah empat per enam, atau empat dari enam, yang merupakan rasio keberhasilan Anda terhadap kegagalan. Probabilitas menang, di sisi lain, adalah empat dari 10.
Secara matematis, peluang Anda dalam hal probabilitas adalah p/(1 - p), dan peluang log odds Anda adalah log (p/(1 - p)). Anda dapat mewakili fungsi logistik sebagai log odds seperti yang ditunjukkan di bawah ini:
Apa saja tipe analisis regresi logistik?
Ada tiga pendekatan untuk analisis regresi logistik berdasarkan hasil dari variabel dependen.
Regresi logistik biner
Regresi logistik biner bekerja dengan baik untuk masalah klasifikasi biner yang hanya memiliki dua kemungkinan hasil. Variabel dependen hanya dapat memiliki dua nilai, seperti ya dan tidak atau 0 dan 1.
Meskipun fungsi logistik menghitung berbagai nilai antara 0 dan 1, model regresi biner membulatkan jawaban ke nilai-nilai terdekat. Umumnya, jawaban di bawah 0,5 dibulatkan menjadi 0, dan jawaban di atas 0,5 dibulatkan menjadi 1, sehingga fungsi logistik mengembalikan hasil biner.
Regresi logistik multinomial
Regresi multinomial dapat menganalisis masalah yang memiliki beberapa kemungkinan hasil selama jumlah hasilnya terbatas. Misalnya, regresi ini dapat memprediksi jika harga rumah akan naik 25%, 50%, 75%, atau 100% berdasarkan data populasi, tetapi tidak dapat memprediksi nilai pasti sebuah rumah.
Regresi logistik multinomial bekerja dengan memetakan nilai hasil ke nilai yang berbeda antara 0 dan 1. Karena fungsi logistik dapat mengembalikan berbagai data kontinu, seperti 0,1, 0,11, 0,12, dan seterusnya, regresi multinomial juga mengelompokkan output ke nilai yang terdekat.
Regresi logistik ordinal
Regresi logistik ordinal, atau model logit berurutan, adalah tipe khusus dari regresi multinomial untuk masalah di mana angka mewakili peringkat dibandingkan nilai aktual. Misalnya, Anda akan menggunakan regresi ordinal untuk memprediksi jawaban atas pertanyaan survei yang meminta pelanggan untuk memberi peringkat layanan Anda sebagai buruk, kurang baik, baik, atau sangat baik berdasarkan nilai numerik, seperti jumlah barang yang mereka beli dari Anda sepanjang tahun.
Bagaimana regresi logistik dibandingkan dengan teknik ML lainnya?
Dua teknik analisis data yang umum adalah analisis regresi linier dan deep learning.
Analisis regresi linier
Seperti yang dijelaskan di atas, regresi linier memodelkan hubungan antara variabel dependen dan independen dengan menggunakan kombinasi linier. Persamaan regresi linier adalah
y= β0X0 + β1X1 + β2X2+… βnXn+ ε, di mana β1 hingga βn dan ε adalah koefisien regresi.
Regresi logistik vs. regresi linier
Regresi linear memprediksi variabel dependen kontinu dengan menggunakan satu set variabel independen tertentu. Variabel kontinu dapat memiliki rentang nilai, seperti harga atau usia. Sehingga regresi linier dapat memprediksi nilai aktual dari variabel dependen. Model ini bisa menjawab pertanyaan seperti "Berapa harga beras 10 tahun mendatang?"
Berbeda dengan regresi linier, regresi logistik adalah algoritme klasifikasi. Regresi logistik tidak dapat memprediksi nilai aktual untuk data kontinu. Model ini dapat menjawab pertanyaan seperti "Apakah harga beras akan naik 50% dalam 10 tahun?"
Deep learning
Deep learning menggunakan jaringan neural atau komponen perangkat lunak yang menyimulasikan otak manusia untuk menganalisis informasi. Perhitungan deep learning didasarkan pada konsep matematika vektor.
Regresi logistik vs. deep learning
Regresi logistik tidak terlalu rumit dan kurang intensif mengomputasikan dibandingkan deep learning. Lebih penting lagi, perhitungan deep learning tidak dapat diselidiki atau dimodifikasi oleh developer, karena sifatnya yang kompleks dan digerakkan oleh mesin. Di sisi lain, perhitungan regresi logistik transparan dan lebih mudah untuk pemecahan masalah.
Bagaimana Anda dapat menjalankan analisis regresi logistik di AWS?
Anda dapat menjalankan regresi logistik di AWS menggunakan Amazon SageMaker. SageMaker adalah layanan machine learning (ML) terkelola penuh dengan algoritme bawaan untuk regresi linier dan regresi logistik, di antara beberapa paket perangkat lunak statistik lainnya.
- Setiap ilmuwan data dapat menggunakan SageMaker untuk mempersiapkan, membangun, melatih, dan melakukan deployment model regresi logistik dengan cepat.
- SageMaker menghilangkan kerja berat di setiap langkah proses regresi logistik agar lebih mudah dalam mengembangkan model berkualitas tinggi.
- SageMaker menyediakan semua komponen yang Anda butuhkan untuk regresi logistik dalam satu set alat sehingga Anda bisa mendapatkan model untuk produksi yang lebih cepat, lebih mudah, dan dengan biaya lebih rendah.
Mulai regresi logistik dengan membuat akun AWS sekarang juga.