Apa Perbedaan Antara Regresi Linier dan Regresi Logistik?


Apa Perbedaan Antara Regresi Linier dan Regresi Logistik?

Regresi linier dan regresi logistik adalah teknik machine learning yang membuat prediksi dengan menganalisis data historis. Misalnya, dengan melihat tren pembelian pelanggan sebelumnya, analisis regresi dapat memperkirakan penjualan di masa mendatang sehingga Anda dapat melakukan pembelian inventaris secara lebih tepat. Teknik regresi linier secara matematis memodelkan faktor yang tidak diketahui pada beberapa faktor yang diketahui untuk memperkirakan nilai yang tidak diketahui secara pasti. Demikian pula, regresi logistik menggunakan matematika untuk menemukan hubungan antara dua faktor data. Kemudian menggunakan hubungan ini untuk memprediksi nilai dari salah satu faktor tersebut berdasarkan faktor yang lain. Prediksi biasanya memiliki jumlah hasil yang terbatas, seperti ya atau tidak.

Baca tentang regresi linier »

Baca tentang regresi logistik »

Membuat prediksi: regresi linier vs. regresi logistik

Regresi linier dan regresi logistik menggunakan pemodelan matematika untuk memprediksi nilai variabel output dari satu atau beberapa variabel input. Variabel output adalah variabel dependen sedangkan variabel input adalah variabel independen.

Regresi linier

Setiap variabel independen memiliki hubungan langsung dengan variabel dependen dan tidak memiliki hubungan dengan variabel independen lainnya. Hubungan ini dikenal sebagai hubungan linier. Variabel dependen biasanya merupakan nilai dari berbagai nilai kontinu.

Berikut adalah rumus, atau fungsi linier, untuk membuat model regresi linier:

y= β0 + β1X1 + β2X2+… βnXn+ ε

Inilah arti dari setiap variabel:

  • y adalah variabel dependen yang diprediksi
  • β0 adalah intersep y ketika semua variabel input independen sama dengan 0
  • β1X1 adalah koefisien regresi (B1) variabel independen pertama (X1), nilai dampak variabel independen pertama pada variabel dependen
  • βnXn adalah koefisien regresi (BN) variabel independen terakhir (XN), ketika ada beberapa nilai input
  • ε adalah kesalahan model

Contoh regresi linier adalah memprediksi harga rumah (variabel dependen) berdasarkan jumlah kamar, lingkungan, dan usia (variabel independen).

Regresi logistik  

Nilai variabel dependen adalah salah satu dari daftar kategori terbatas yang menggunakan klasifikasi binari. Ini disebut variabel kategoris. Contohnya adalah hasil dari lemparan dadu enam sisi. Hubungan ini dikenal sebagai hubungan logistik.

Rumus untuk regresi logistik menerapkan transformasi logit, atau logaritma alami dari peluang, untuk probabilitas keberhasilan atau kegagalan variabel kategoris tertentu.

y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))

Inilah arti dari setiap variabel:

  • y memberikan probabilitas keberhasilan variabel kategoris y
  • e (x) adalah bilangan Euler, kebalikan dari fungsi logaritma alami atau fungsi sigmoid,  ln (x)
  • Β0, β1X1…βnXn memiliki arti yang sama dengan regresi linier pada bagian sebelumnya

Contoh regresi logistik adalah memprediksi kemungkinan harga rumah sebesar lebih dari 500.000 USD (variabel dependen) berdasarkan jumlah kamar, lingkungan, dan usia (variabel independen).

Apa saja persamaan antara regresi linier dan regresi logistik?

Regresi linier dan regresi logistik memiliki beberapa kesamaan dan ruang aplikasi luas yang serupa.

Analisis statistik

Regresi logistik dan linier adalah bentuk analisis statistik atau data, dan berada di bawah bidang ilmu data. Keduanya menggunakan pemodelan matematika untuk menghubungkan serangkaian variabel independen atau variabel yang diketahui dengan variabel-variabel dependen. Anda dapat merepresentasikan regresi logistik dan regresi linier ke dalam persamaan matematika. Anda juga dapat merepresentasikan model pada grafik.

Teknik machine learning

Model regresi linier dan regresi logistik digunakan dalam machine learning yang diawasi.

Machine learning yang diawasi melibatkan pelatihan model dengan memasukkan set data berlabel. Variabel dependen dan independen diketahui serta dikumpulkan oleh peneliti manusia. Dengan memasukkan data historis yang diketahui, persamaan matematika direkayasa terbalik. Pada akhirnya, prediksi dapat menjadi akurat untuk menghitung variabel dependen yang tidak diketahui dari variabel independen yang diketahui.

Pembelajaran yang diawasi berbeda dari pembelajaran tanpa pengawasan; datanya tidak dilabeli.

Baca tentang machine learning »

Kesulitan pelatihan

Regresi logistik dan regresi linier membutuhkan banyak data berlabel agar model menjadi akurat dalam membuat prediksi. Ini bisa menjadi tugas yang sulit bagi manusia. Misalnya, jika Anda ingin memberikan label apakah suatu gambar berisi mobil, semua gambar harus memiliki tanda variabel seperti ukuran mobil, sudut foto, dan penghalang. 

Akurasi prediksi yang terbatas

Model statistik yang menyesuaikan data input ke data output tidak selalu menyiratkan hubungan sebab akibat antara variabel dependen dan independen. Untuk regresi logistik dan regresi linier, korelasi bukanlah sebab-akibat.

Untuk menggunakan contoh harga rumah dari bagian sebelumnya, misalnya nama pemilik rumah masuk dalam daftar variabel independen. Kemudian, nama John Doe berkorelasi dengan harga jual rumah yang lebih rendah. Meskipun regresi linier dan regresi logistik akan selalu memprediksi harga rumah yang lebih rendah jika nama pemiliknya adalah John Doe, logika menyatakan hubungan ini dengan data input tidak benar.

Perbedaan utama: regresi linier vs. regresi logistik

Perbedaan terbesar regresi logistik dan regresi linier terletak pada pendekatan matematisnya.

Nilai output

Output regresi linier adalah skala nilai yang berkelanjutan. Misalnya, output ini mencakup angka, kilometer, harga, dan berat.

Sebaliknya, nilai output model regresi logistik adalah probabilitas terjadinya peristiwa kategoris tetap. Misalnya, 0,76 dapat berarti 76% kemungkinan mengenakan kemeja biru, dan 0,22 dapat berarti peluang 22% untuk memilih ya.

Hubungan variabel

Dalam analisis regresi, garis regresi adalah bentuk garis grafik yang mewakili hubungan antara setiap variabel independen dan variabel dependen.

Dalam regresi linier, garis regresi berbentuk lurus. Setiap perubahan pada variabel independen memiliki efek langsung pada variabel dependen.

Dalam regresi logistik, garis regresi berbentuk kurva S, yang juga dikenal sebagai kurva sigmoid.

Jenis distribusi matematika

Regresi linier mengikuti distribusi normal atau Gaussian dari variabel dependen. Distribusi normal digambarkan oleh garis kontinu pada grafik.

Regresi logistik mengikuti distribusi binomial. Distribusi binomial biasanya digambarkan sebagai grafik batang.

Waktu yang tepat untuk menggunakan regresi linier vs. regresi logistik

Anda dapat menggunakan regresi linier ketika ingin memprediksi variabel dependen berkelanjutan dari skala nilai. Gunakan regresi logistik jika Anda mengharapkan hasil binari (misalnya, ya atau tidak).

Berikut adalah contoh regresi linier: 

  • Memprediksi tinggi badan orang dewasa berdasarkan tinggi badan ibu dan ayah
  • Memprediksi volume penjualan labu berdasarkan harga, tahun, dan lokasi toko
  • Memprediksi harga tiket pesawat berdasarkan asal, tujuan, tahun, dan maskapai penerbangan
  • Memprediksi jumlah suka media sosial berdasarkan poster, jumlah pengikut organik, konten posting, dan jam posting

Berikut adalah contoh regresi logistik:

  • Memprediksi kemungkinan seseorang mendapatkan penyakit jantung berdasarkan IMT, status merokok, dan kecenderungan genetik
  • Memprediksi item pakaian ritel yang paling populer berdasarkan warna, ukuran, jenis, dan harga
  • Memprediksi kemungkinan seorang karyawan berhenti pada tahun itu berdasarkan tingkat gaji, hari masuk kantor, jumlah rapat, jumlah email yang dikirim, tim, dan masa jabatan
  • Memprediksi anggota tim penjualan yang akan mendapatkan kontrak lebih dari 1 juta USD dalam setahun berdasarkan penjualan, masa jabatan, dan tingkat komisi tahun sebelumnya

Ringkasan perbedaan: regresi linier vs. regresi logistik

 

Regresi linier

Regresi logistik

Apa itu?

Sebuah metode statistik untuk memprediksi nilai output dari satu set nilai input.

Sebuah metode statistik untuk memprediksi probabilitas nilai output yang berasal dari kategori tertentu dari serangkaian variabel kategoris.

Hubungan

Hubungan linier yang direpresentasikan oleh garis lurus.

Hubungan logistik atau hubungan sigmoidal yang direpresentasikan oleh kurva berbentuk S.

Persamaan

Linear.

Logaritmik.

Jenis pembelajaran yang diawasi

Regresi.

Klasifikasi.

Jenis distribusi

Normal/gaussian.

Binomial.

Paling cocok untuk

Tugas yang memerlukan variabel dependen berkelanjutan yang terprediksi dari suatu skala.

Tugas yang memerlukan kemungkinan prediksi dari variabel dependen kategoris yang terjadi dari serangkaian kategori tetap.

Bagaimana cara menjalankan analisis regresi linier dan regresi logistik di AWS?

Anda dapat menjalankan analisis regresi linier dan logistik di Amazon Web Services (AWS) menggunakan Amazon SageMaker.

SageMaker adalah layanan machine learning terkelola penuh dengan algoritma regresi bawaan baik untuk regresi linier maupun regresi logistik, di antara beberapa paket perangkat lunak statistik lainnya. Anda dapat mengimplementasikan regresi linier dengan nilai input sebanyak yang Anda butuhkan, atau memecahkan masalah regresi dengan model probabilitas logistik.

Misalnya, berikut adalah cara memperoleh manfaat saat menggunakan SageMaker:

  • Persiapkan, bangun, latih, dan deploy model regresi dengan cepat
  • Hapus beban berat dari setiap langkah proses regresi linier dan logistik serta kembangkan model regresi berkualitas tinggi
  • Akses semua komponen yang diperlukan untuk analisis regresi dalam set alat tunggal agar model masuk ke produksi dengan lebih cepat, mudah, dan terjangkau

Mulai menggunakan analisis regresi di AWS dengan membuat akun sekarang juga.