Apa itu regresi linier?
Regresi linear adalah teknik analisis data yang memprediksi nilai data yang tidak diketahui dengan menggunakan nilai data lain yang terkait dan diketahui. Secara matematis memodelkan variabel yang tidak diketahui atau tergantung dan variabel yang dikenal atau independen sebagai persamaan linier. Misalnya, anggaplah Anda memiliki data tentang pengeluaran dan pendapatan Anda untuk tahun lalu. Teknik regresi linier menganalisis data ini dan menentukan bahwa pengeluaran Anda adalah setengah dari penghasilan Anda. Mereka kemudian menghitung biaya masa depan yang tidak diketahui dengan mengurangi separuh pendapatan yang diketahui di masa depan.
Mengapa regresi linier penting?
Model regresi linier relatif sederhana dan memberikan rumus matematika yang mudah ditafsirkan untuk menghasilkan prediksi. Regresi linier adalah teknik statistik yang sudah ada dan mudah diterapkan pada perangkat lunak dan komputasi. Bisnis menggunakannya untuk mengonversi data mentah secara andal dan dapat diprediksi menjadi kecerdasan bisnis serta wawasan yang dapat ditindaklanjuti. Para ilmuwan di berbagai bidang, termasuk biologi serta ilmu perilaku, lingkungan, dan sosial menggunakan regresi linier untuk melakukan analisis data awal dan memprediksi tren masa depan. Banyak metode ilmu data, seperti machine learning dan kecerdasan buatan, menggunakan regresi linier untuk memecahkan masalah yang kompleks.
Bagaimana cara kerja regresi linier?
Pada intinya, teknik regresi linier sederhana mencoba untuk menyusun grafik garis antara dua variabel data, yaitu x dan y. Sebagai variabel independen, x berada di sepanjang sumbu horizontal. Variabel independen juga disebut variabel eksplanatori atau variabel prediktor. Variabel dependen, y, berada pada sumbu vertikal. Anda juga dapat merujuk ke nilai y sebagai variabel respons atau variabel yang diprediksi.
Langkah-langkah dalam regresi linier
Untuk gambaran umum ini, pikirkan bentuk paling sederhana dari persamaan grafik garis antara y dan x; y=c*x+m dengan c dan m konstan untuk semua kemungkinan nilai x dan y. Jadi, sebagai contoh, anggaplah bahwa set data input untuk (x,y) adalah (1,5), (2,8), dan (3,11). Untuk mengidentifikasi metode regresi linier, Anda akan melakukan langkah-langkah berikut:
- Buat garis lurus dan ukur korelasi antara 1 dan 5.
- Terus ubah arah garis lurus untuk nilai baru (2,8) dan (3,11) hingga semua nilai sesuai.
- Identifikasi persamaan regresi linier sebagai y=3*x+2.
- Ramalkan atau prediksi bahwa y adalah 14 ketika x
Apa itu regresi linier dalam machine learning?
Dalam machine learning, program komputer yang disebut algoritme menganalisis set data besar dan bekerja mundur dari data tersebut untuk menghitung persamaan regresi linier. Ilmuwan data melatih algoritme pada set data yang diketahui atau diberi label terlebih dahulu, kemudian menggunakan algoritme tersebut untuk memprediksi nilai yang tidak diketahui. Data dalam kehidupan nyata lebih rumit daripada contoh sebelumnya. Itu adalah alasan mengapa analisis regresi linier harus memodifikasi atau mengubah nilai data secara matematis untuk memenuhi empat asumsi berikut.
Hubungan linier
Hubungan linier harus ada antara variabel independen dan dependen. Untuk menentukan hubungan ini, ilmuwan data membuat plot sebar—kumpulan acak nilai x dan y—untuk melihat apakah nilai tersebut berada di sepanjang garis lurus. Jika tidak, Anda dapat menerapkan fungsi nonlinier seperti akar kuadrat atau log untuk membuat hubungan linier antara dua variabel secara matematis.
Independensi residual
Ilmuwan data menggunakan residual untuk mengukur akurasi prediksi. Residual adalah selisih antara data yang diamati dengan nilai prediksi. Residual tidak boleh memiliki pola yang dapat diidentifikasi. Misalnya, Anda tidak ingin residual tumbuh semakin besar seiring berjalannya waktu. Anda dapat menggunakan uji matematika yang berbeda, seperti uji Durbin-Watson, untuk menentukan independensi residual. Anda dapat menggunakan data dummy untuk mengganti variasi data apa pun, seperti data musiman.
Normalitas
Teknik pembuatan grafik seperti plot Q-Q menentukan apakah residual terdistribusi secara normal. Residual harus berada di sepanjang garis diagonal di tengah grafik. Jika residual tidak dinormalisasi, Anda dapat menguji data untuk pencilan acak atau nilai yang tidak umum. Menghapus pencilan atau melakukan transformasi nonlinier dapat mengatasi masalah tersebut.
Homoskedastisitas
Homoskedastisitas mengasumsikan bahwa residual memiliki varians atau standar deviasi yang konstan dari rata-rata untuk setiap nilai x. Jika tidak, hasil analisis mungkin tidak akurat. Jika asumsi ini tidak terpenuhi, Anda mungkin harus mengubah variabel dependen. Karena varians terjadi secara alami dalam set data yang besar, masuk akal untuk mengubah skala variabel dependen. Misalnya, alih-alih menggunakan ukuran populasi untuk memprediksi jumlah stasiun pemadam kebakaran di sebuah kota, ukuran populasi mungkin dapat digunakan untuk memprediksi jumlah stasiun pemadam kebakaran per orang.
Apa saja jenis regresi linier?
Beberapa jenis analisis regresi lebih cocok untuk menangani set data yang kompleks daripada yang lain. Berikut adalah beberapa contohnya.
Regresi linier sederhana
Regresi linier sederhana didefinisikan oleh fungsi linier:
Y= β0*X + β1 + ε
β0 and β1 adalah dua konstanta yang tidak diketahui dan mewakili kemiringan regresi, sedangkan ε (epsilon) adalah istilah kesalahannya.
Anda dapat menggunakan regresi linier sederhana untuk mencontoh hubungan antara dua variabel, seperti ini:
- Curah hujan dan hasil panen
- Usia dan tinggi badan pada anak
- Suhu dan ekspansi logam merkuri dalam termometer
Regresi linier berganda
Dalam analisis regresi linier berganda, set data berisi satu variabel dependen dan beberapa variabel independen. Fungsi garis regresi linier berubah untuk memasukkan lebih banyak faktor sebagai berikut:
Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε
Ketika jumlah variabel prediktor meningkat, konstanta β juga meningkat.
Regresi linier berganda mencontoh beberapa variabel dan dampaknya terhadap hasil:
- Curah hujan, suhu, dan penggunaan pupuk pada hasil panen
- Diet dan olahraga pada penyakit jantung
- Pertumbuhan upah dan inflasi pada tarif pinjaman rumah
Regresi logistik
Ilmuwan data menggunakan regresi logistik untuk mengukur probabilitas suatu peristiwa terjadi. Prediksi adalah nilai antara 0 dan 1. Angka 0 menunjukkan suatu peristiwa yang tidak mungkin terjadi dan angka 1 menunjukkan kemungkinan maksimum bahwa peristiwa itu akan terjadi. Persamaan logistik menggunakan fungsi logaritma untuk menghitung garis regresi.
Di bawah ini adalah beberapa contoh:
- Probabilitas menang atau kalah dalam pertandingan olahraga
- Probabilitas lulus atau gagal dalam ujian
- Probabilitas sebuah gambar berupa buah atau hewan
Bagaimana AWS dapat membantu Anda mengatasi masalah regresi linier?
Amazon SageMaker adalah layanan yang dikelola sepenuhnya yang dapat membantu Anda menyiapkan, membangun, melatih, dan melakukan deployment model machine learning (ML) berkualitas tinggi dengan cepat. Amazon SageMaker Autopilot adalah solusi ML otomatis generik untuk masalah klasifikasi dan regresi, seperti deteksi penipuan, analisis churn, dan pemasaran bertarget.
Amazon Redshift, gudang data cloud yang cepat dan banyak digunakan, terintegrasi secara native dengan Amazon SageMaker untuk ML. Dengan Amazon Redshift ML, Anda dapat menggunakan pernyataan SQL sederhana untuk membuat dan melatih model ML dari data Anda di Amazon Redshift. Kemudian, Anda dapat menggunakan model ini untuk menyelesaikan semua jenis masalah regresi linier.
Mulai gunakan Amazon SageMaker JumpStart atau buat akun AWS sekarang.