Apa Itu Regresi Linier? Bagaimana Ini Digunakan dalam Pembelajaran Mesin
Diterbitkan: 2021-07-16Bukankah regresi linier bagian dari statistik?
Tidak diragukan lagi, ya.
Bahkan, kebanyakan pembelajaran mesin (ML) algoritma dipinjam dari berbagai bidang, terutama statistik. Apa pun yang dapat membantu model memprediksi dengan lebih baik pada akhirnya akan menjadi bagian dari ML. Jadi, aman untuk mengatakan bahwa regresi linier adalah statistik dan algoritma pembelajaran mesin.
Regresi linier adalah algoritma yang populer dan tidak rumit yang digunakan dalam ilmu data dan pembelajaran mesin. Ini adalah pembelajaran yang diawasi algoritma dan bentuk paling sederhana dari regresi yang digunakan untuk mempelajari hubungan matematis antar variabel.
Apa itu regresi linier?
Regresi linier adalah metode statistik yang mencoba menunjukkan hubungan antar variabel. Itu terlihat pada titik data yang berbeda dan memplot garis tren. Contoh sederhana dari regresi linier adalah menemukan bahwa biaya perbaikan sebuah mesin meningkat seiring waktu.
Lebih tepatnya, regresi linier digunakan untuk mengetahui sifat dan kekuatan hubungan antara suatu variabel terikat dengan serangkaian variabel bebas lainnya. Ini membantu membuat model untuk membuat prediksi, seperti memprediksi harga saham perusahaan.
Sebelum mencoba menyesuaikan model linier dengan dataset yang diamati, seseorang harus menilai apakah ada hubungan antara variabel atau tidak. Tentu saja, ini tidak berarti bahwa satu variabel menyebabkan yang lain, tetapi harus ada korelasi yang terlihat di antara mereka.
Misalnya, nilai perguruan tinggi yang lebih tinggi tidak selalu berarti paket gaji yang lebih tinggi. Tapi bisa ada hubungan antara dua variabel.
Tahukah kamu? Istilah "linier" berarti menyerupai garis atau berkaitan dengan garis.
Membuat scatter plot sangat ideal untuk menentukan kekuatan hubungan antara variabel penjelas (independen) dan dependen . Jika plot sebar tidak menunjukkan tren yang meningkat atau menurun, menerapkan model regresi linier ke nilai yang diamati mungkin tidak bermanfaat.
Koefisien korelasi digunakan untuk menghitung seberapa kuat hubungan antara dua variabel. Biasanya dilambangkan dengan r dan memiliki nilai antara -1 dan 1. Nilai koefisien korelasi positif menunjukkan hubungan positif antar variabel. Demikian juga, nilai negatif menunjukkan hubungan negatif antar variabel.
Tip: Lakukan analisis regresi hanya jika koefisien korelasi positif atau negatif 0,50 atau lebih.
Jika Anda melihat hubungan antara waktu belajar dan nilai, Anda mungkin akan melihat hubungan yang positif. Di sisi lain, jika Anda melihat hubungan antara waktu di media sosial dan nilai, kemungkinan besar Anda akan melihat hubungan negatif.
Di sini, "nilai" adalah variabel dependen, dan waktu yang dihabiskan untuk belajar atau di media sosial adalah variabel independen. Hal ini karena nilai tergantung pada berapa banyak waktu yang Anda habiskan untuk belajar.
Jika Anda dapat membangun (setidaknya) korelasi moderat antara variabel melalui plot pencar dan koefisien korelasi, maka variabel tersebut memiliki beberapa bentuk hubungan linier.
Singkatnya, regresi linier mencoba memodelkan hubungan antara dua variabel dengan menerapkan persamaan linier pada data yang diamati. Garis regresi linier dapat direpresentasikan menggunakan persamaan garis lurus:
y = mx + b
Dalam persamaan regresi linier sederhana ini:
- y adalah estimasi variabel dependen (atau output)
- m adalah koefisien regresi (atau kemiringan)
- x adalah variabel independen (atau input)
- b adalah konstanta (atau perpotongan y)
Menemukan hubungan antara variabel memungkinkan untuk memprediksi nilai atau hasil. Dengan kata lain, regresi linier memungkinkan untuk memprediksi nilai baru berdasarkan data yang ada.
Contohnya adalah memprediksi hasil panen berdasarkan curah hujan yang diterima. Dalam hal ini, curah hujan adalah variabel bebas, dan hasil panen (nilai prediksi) adalah variabel terikat.
Variabel bebas disebut juga sebagai variabel prediktor . Demikian juga variabel terikat disebut juga sebagai variabel respon .
Terminologi kunci dalam regresi linier
Memahami analisis regresi linier juga berarti membiasakan diri dengan banyak istilah baru. Jika Anda baru saja melangkah ke dunia statistik atau pembelajaran mesin, memiliki pemahaman yang adil tentang terminologi ini akan sangat membantu.
- Variabel: Ini adalah angka, kuantitas, atau karakteristik apa pun yang dapat dihitung atau diukur. Ini juga disebut item data. Pendapatan, usia, kecepatan, dan jenis kelamin adalah contohnya.
- Koefisien: Ini adalah angka (biasanya bilangan bulat) dikalikan dengan variabel di sebelahnya. Misalnya, dalam 7x, angka 7 adalah koefisiennya.
- Pencilan: Ini adalah titik data yang sangat berbeda dari yang lain.
- Kovarians: Arah hubungan linier antara dua variabel. Dengan kata lain, ini menghitung sejauh mana dua variabel terkait secara linier.
- Multivariat: Ini berarti melibatkan dua atau lebih variabel dependen yang menghasilkan satu hasil.
- Residuals: Perbedaan antara nilai-nilai yang diamati dan diprediksi dari variabel dependen.
- Variabilitas: Kurangnya konsistensi atau sejauh mana distribusi diperas atau diregangkan.
- Linearitas: Sifat hubungan matematis yang terkait erat dengan proporsionalitas dan dapat direpresentasikan secara grafis sebagai garis lurus.
- Fungsi Linear : Fungsi yang grafiknya berupa garis lurus.
- Collinearity: Korelasi antara variabel independen, sehingga mereka menunjukkan hubungan linier dalam model regresi.
- Standar deviasi (SD): Ini adalah ukuran penyebaran kumpulan data relatif terhadap rata-ratanya. Dengan kata lain, ini adalah ukuran seberapa tersebar angka.
- Kesalahan standar (SE): Perkiraan SD dari populasi sampel statistik. Ini digunakan untuk mengukur variabilitas.
Jenis-jenis regresi linier
Ada dua jenis regresi linier: regresi linier sederhana dan regresi linier berganda .
Metode regresi linier sederhana mencoba mencari hubungan antara satu variabel bebas dan satu variabel terikat yang bersesuaian. Variabel independen adalah input, dan variabel dependen yang sesuai adalah output.
Tips: Anda dapat menerapkan regresi linier dalam berbagai bahasa dan lingkungan pemrograman, termasuk Python, R, MATLAB, dan Excel.
Metode regresi linier berganda mencoba mencari hubungan antara dua atau lebih variabel bebas dengan variabel terikat yang bersesuaian. Ada juga kasus khusus regresi linier berganda yang disebut regresi polinomial.
Sederhananya, model regresi linier sederhana hanya memiliki satu variabel bebas, sedangkan model regresi linier berganda akan memiliki dua atau lebih variabel bebas. Dan ya, ada metode regresi non-linier lain yang digunakan untuk analisis data yang sangat rumit.
Regresi logistik vs. regresi linier
Sementara regresi linier memprediksi variabel dependen berkelanjutan untuk satu set variabel independen tertentu, regresi logistik memprediksi variabel dependen kategoris.
Keduanya merupakan metode pembelajaran terawasi. Tetapi sementara regresi linier digunakan untuk menyelesaikan masalah regresi, regresi logistik digunakan untuk menyelesaikan masalah klasifikasi.
Tentu saja, regresi logistik dapat memecahkan masalah regresi, tetapi terutama digunakan untuk masalah klasifikasi. Outputnya hanya bisa 0 atau 1. Ini berharga dalam situasi di mana Anda perlu menentukan probabilitas antara dua kelas atau, dengan kata lain, menghitung kemungkinan suatu peristiwa. Misalnya, regresi logistik dapat digunakan untuk memprediksi apakah hari ini akan turun hujan.
Asumsi regresi linier
Saat menggunakan regresi linier untuk memodelkan hubungan antar variabel, kami membuat beberapa asumsi. Asumsi adalah kondisi yang diperlukan yang harus dipenuhi sebelum kita menggunakan model untuk membuat prediksi.

Secara umum ada empat asumsi yang terkait dengan model regresi linier:
- Hubungan linier: Ada hubungan linier antara variabel bebas x dan variabel terikat y .
- Independensi: Residu bersifat independen. Tidak ada korelasi antara residual berurutan dalam data deret waktu.
- Homoskedastisitas: Residu memiliki varians yang sama di semua tingkatan.
- Normalitas: Residu berdistribusi normal.
Metode untuk memecahkan model regresi linier
Dalam pembelajaran mesin atau istilah statistik, mempelajari model regresi linier berarti menebak nilai koefisien menggunakan data yang tersedia. Beberapa metode dapat diterapkan pada model regresi linier agar lebih efisien.
Tip: Gunakan perangkat lunak pembelajaran mesin untuk menghilangkan tugas monoton dan membuat prediksi yang akurat.
Mari kita lihat berbagai teknik yang digunakan untuk menyelesaikan model regresi linier untuk memahami perbedaan dan pertukarannya.
Regresi linier sederhana
Seperti disebutkan sebelumnya, ada satu input atau satu variabel independen dan satu variabel dependen dalam regresi linier sederhana . Ini digunakan untuk menemukan hubungan terbaik antara dua variabel, mengingat keduanya bersifat kontinu. Misalnya, dapat digunakan untuk memprediksi jumlah berat badan yang diperoleh berdasarkan kalori yang dikonsumsi.
Kuadrat terkecil biasa
Regresi kuadrat terkecil biasa adalah metode lain untuk memperkirakan nilai koefisien ketika ada lebih dari satu variabel atau input independen. Ini adalah salah satu pendekatan paling umum untuk menyelesaikan regresi linier dan juga dikenal sebagai persamaan normal .
Prosedur ini mencoba untuk meminimalkan jumlah residu kuadrat. Ini memperlakukan data sebagai matriks dan menggunakan operasi aljabar linier untuk menentukan nilai optimal untuk setiap koefisien. Tentu saja, metode ini hanya dapat diterapkan jika kita memiliki akses ke semua data, dan juga harus ada cukup memori untuk memuat data.
Keturunan gradien
Penurunan gradien adalah salah satu metode yang paling mudah dan umum digunakan untuk menyelesaikan masalah regresi linier. Ini berguna ketika ada satu atau lebih input dan melibatkan pengoptimalan nilai koefisien dengan meminimalkan kesalahan model secara iteratif.
Penurunan gradien dimulai dengan nilai acak untuk setiap koefisien. Untuk setiap pasangan nilai input dan output, jumlah kesalahan kuadrat dihitung. Ini menggunakan faktor skala sebagai tingkat pembelajaran, dan setiap koefisien diperbarui ke arah untuk meminimalkan kesalahan.
Proses ini diulang sampai tidak ada perbaikan lebih lanjut yang mungkin atau jumlah kuadrat minimum tercapai. Penurunan gradien sangat membantu ketika ada kumpulan data besar yang melibatkan banyak baris dan kolom yang tidak muat di memori.
Regularisasi
Regularisasi adalah metode yang mencoba untuk meminimalkan jumlah kesalahan kuadrat dari model dan, pada saat yang sama, mengurangi kompleksitas model. Ini mengurangi jumlah kesalahan kuadrat menggunakan metode kuadrat terkecil biasa.
Regresi Lasso dan regresi ridge adalah dua contoh regularisasi yang terkenal dalam regresi linier. Metode ini berharga ketika ada kolinearitas dalam variabel independen.
Metode Adam
Estimasi momen adaptif , atau ADAM , adalah algoritma optimasi yang digunakan dalam pembelajaran yang mendalam. Ini adalah algoritme iteratif yang berkinerja baik pada data yang bising. Sangat mudah untuk diimplementasikan, efisien secara komputasi, dan memiliki kebutuhan memori yang minimal.
ADAM menggabungkan dua algoritma penurunan gradien – root mean square propagation (RMSprop) dan penurunan gradien adaptif . Alih-alih menggunakan seluruh kumpulan data untuk menghitung gradien, ADAM menggunakan himpunan bagian yang dipilih secara acak untuk membuat perkiraan stokastik.
ADAM cocok untuk masalah yang melibatkan sejumlah besar parameter atau data. Juga, dalam metode optimasi ini, hyperparameters umumnya membutuhkan penyetelan minimal dan memiliki interpretasi intuitif.
Dekomposisi nilai tunggal
Dekomposisi nilai singular , atau SVD , adalah teknik pengurangan dimensi yang umum digunakan dalam regresi linier. Ini adalah langkah prapemrosesan yang mengurangi jumlah dimensi untuk algoritme pembelajaran.
SVD melibatkan pemecahan matriks sebagai produk dari tiga matriks lainnya. Ini cocok untuk data berdimensi tinggi dan efisien serta stabil untuk kumpulan data kecil. Karena stabilitasnya, ini adalah salah satu pendekatan yang paling disukai untuk menyelesaikan persamaan linier untuk regresi linier. Namun, itu rentan terhadap outlier dan mungkin menjadi tidak stabil dengan kumpulan data yang besar.
Mempersiapkan data untuk regresi linier
Data dunia nyata, dalam banyak kasus, tidak lengkap.
Seperti model pembelajaran mesin lainnya, persiapan dan pemrosesan data adalah proses penting dalam regresi linier. Akan ada nilai yang hilang, kesalahan, outlier, inkonsistensi, dan kurangnya nilai atribut.
Berikut adalah beberapa cara untuk memperhitungkan data yang tidak lengkap dan membuat model prediksi yang lebih andal.
- Regresi linier berpikir bahwa variabel prediktor dan respons tidak berisik. Karena itu, menghilangkan noise dengan beberapa operasi pembersihan data sangat penting. Jika memungkinkan, Anda harus menghapus outlier dalam variabel output.
- Jika variabel input dan output memiliki distribusi Gaussian , regresi linier akan membuat prediksi yang lebih baik.
- Jika Anda mengubah skala variabel input menggunakan normalisasi atau standarisasi, regresi linier umumnya akan membuat prediksi yang lebih baik.
- Jika ada banyak atribut, Anda perlu mengubah data agar memiliki hubungan linier .
- Jika variabel input sangat berkorelasi, maka regresi linier akan overfit data. Dalam kasus seperti itu, hapus collinearity .
Keuntungan dan kerugian dari regresi linier
Regresi linier adalah salah satu algoritma yang paling sederhana untuk dipahami dan paling sederhana untuk diterapkan. Ini adalah alat yang hebat untuk menganalisis hubungan antar variabel.
Berikut adalah beberapa keuntungan penting dari regresi linier:
- Ini adalah algoritma masuk karena kesederhanaannya.
- Meskipun rentan terhadap overfitting, hal itu dapat dihindari dengan bantuan teknik pengurangan dimensi.
- Ini memiliki kemampuan interpretasi yang baik.
- Ini berkinerja baik pada kumpulan data yang dapat dipisahkan secara linier.
- Kompleksitas ruangnya rendah; oleh karena itu, ini adalah algoritme latensi tinggi.
Namun, regresi linier umumnya tidak direkomendasikan untuk sebagian besar aplikasi praktis. Itu karena terlalu menyederhanakan masalah dunia nyata dengan mengasumsikan hubungan linier antar variabel.
Berikut adalah beberapa kelemahan dari regresi linier:
- Pencilan dapat memiliki efek negatif pada regresi
- Karena harus ada hubungan linier antara variabel agar sesuai dengan model linier, diasumsikan bahwa ada hubungan garis lurus antara variabel
- Ia merasakan bahwa data terdistribusi secara normal
- Hal ini juga melihat hubungan antara mean dari variabel independen dan dependen
- Regresi linier bukanlah deskripsi lengkap tentang hubungan antar variabel
- Adanya korelasi yang tinggi antar variabel secara signifikan dapat mempengaruhi kinerja model linier
Amati dulu, baru prediksi
Dalam regresi linier, sangat penting untuk mengevaluasi apakah variabel memiliki hubungan linier. Meskipun beberapa orang mencoba untuk memprediksi tanpa melihat tren, yang terbaik adalah memastikan ada korelasi yang cukup kuat antar variabel.
Seperti disebutkan sebelumnya, melihat plot pencar dan koefisien korelasi adalah metode yang sangat baik. Dan ya, meskipun korelasinya tinggi, masih lebih baik untuk melihat plot pencar. Singkatnya, jika data secara visual linier, maka analisis regresi linier layak dilakukan.
Sementara regresi linier memungkinkan Anda memprediksi nilai variabel dependen, ada algoritme yang mengklasifikasikan titik data baru atau memprediksi nilainya dengan melihat tetangganya. Ini disebut algoritma k-nearest neighbor, dan ini adalah pelajar yang malas.