Doğrusal Regresyon Nedir? Makine Öğreniminde Nasıl Kullanılır?

Yayınlanan: 2021-07-16

Doğrusal regresyon istatistiklerin bir parçası değil mi?

Şüphesiz, evet.

Aslında, çoğu makine öğrenme (ML) algoritmaları, başta istatistik olmak üzere çeşitli alanlardan ödünç alınmıştır. Modellerin daha iyi tahmin etmesine yardımcı olabilecek her şey sonunda makine öğreniminin bir parçası olacaktır. Dolayısıyla, lineer regresyonun hem istatistiksel hem de makine öğrenmesi algoritması olduğunu söylemek güvenlidir.

Doğrusal regresyon, veri bilimi ve makine öğreniminde kullanılan popüler ve karmaşık olmayan bir algoritmadır. Bu bir denetimli öğrenme değişkenler arasındaki matematiksel ilişkiyi incelemek için kullanılan algoritma ve en basit regresyon biçimidir.

Doğrusal regresyon nedir?

Doğrusal regresyon, değişkenler arasındaki ilişkiyi göstermeye çalışan istatistiksel bir yöntemdir. Farklı veri noktalarına bakar ve bir eğilim çizgisi çizer. Basit bir doğrusal regresyon örneği, bir makine parçasının tamir maliyetinin zamanla arttığını bulmaktır.

Daha doğrusu, bir bağımlı değişken ile bir dizi başka bağımsız değişken arasındaki ilişkinin karakterini ve gücünü belirlemek için doğrusal regresyon kullanılır. Bir şirketin hisse senedi fiyatını tahmin etmek gibi tahminler yapmak için modeller oluşturmaya yardımcı olur.

Gözlenen veri kümesine doğrusal bir model uydurmaya çalışmadan önce, değişkenler arasında bir ilişki olup olmadığı değerlendirilmelidir. Elbette bu, bir değişkenin diğerine neden olduğu anlamına gelmez, ancak aralarında gözle görülür bir korelasyon olması gerekir.

Örneğin, daha yüksek üniversite notları, mutlaka daha yüksek bir maaş paketi anlamına gelmez. Ancak iki değişken arasında bir ilişki olabilir.

Biliyor musun? "Doğrusal" terimi, bir çizgiye benzeyen veya çizgilerle ilgili anlamına gelir.

Bir dağılım grafiği oluşturmak, açıklayıcı (bağımsız) ve bağımlı değişkenler arasındaki ilişkinin gücünü belirlemek için idealdir. Dağılım grafiği herhangi bir artan veya azalan eğilim göstermiyorsa, gözlemlenen değerlere doğrusal bir regresyon modeli uygulamak faydalı olmayabilir.

Korelasyon katsayıları , iki değişken arasındaki ilişkinin ne kadar güçlü olduğunu hesaplamak için kullanılır. Genellikle r ile gösterilir ve -1 ile 1 arasında bir değere sahiptir. Pozitif bir korelasyon katsayısı değeri, değişkenler arasında pozitif bir ilişki olduğunu gösterir. Benzer şekilde, negatif bir değer, değişkenler arasında negatif bir ilişki olduğunu gösterir.

İpucu: Regresyon analizini yalnızca korelasyon katsayısı pozitif veya negatif 0,50 veya üzerindeyse gerçekleştirin.

Çalışma süresi ve notlar arasındaki ilişkiye bakıyor olsaydınız, muhtemelen olumlu bir ilişki görürdünüz. Öte yandan, sosyal medyadaki zaman ve notlar arasındaki ilişkiye bakarsanız, büyük olasılıkla olumsuz bir ilişki göreceksiniz.

Burada “notlar” bağımlı değişken, ders çalışmak veya sosyal medyada geçirilen zaman bağımsız değişkendir. Bunun nedeni, notların çalışmak için ne kadar zaman harcadığınıza bağlı olmasıdır.

Hem dağılım grafiği hem de korelasyon katsayısı yoluyla değişkenler arasında (en azından) orta düzeyde bir korelasyon kurabiliyorsanız, söz konusu değişkenler bir tür doğrusal ilişkiye sahiptir.

Kısacası, doğrusal regresyon, gözlemlenen verilere doğrusal bir denklem uygulayarak iki değişken arasındaki ilişkiyi modellemeye çalışır. Doğrusal bir regresyon çizgisi, düz bir çizginin denklemi kullanılarak temsil edilebilir:

y = mx + b

Bu basit lineer regresyon denkleminde:

y tahmini bağımlı değişkendir (veya çıktıdır)
m regresyon katsayısıdır (veya eğimdir)
x bağımsız değişkendir (veya girdidir)
b sabittir (veya y kesme noktasıdır)

Değişkenler arasındaki ilişkiyi bulmak, değerleri veya sonuçları tahmin etmeyi mümkün kılar. Başka bir deyişle, doğrusal regresyon, mevcut verilere dayalı olarak yeni değerleri tahmin etmeyi mümkün kılar.

Bir örnek, alınan yağışa dayalı olarak mahsul verimini tahmin etmek olabilir. Bu durumda yağış bağımsız değişken, mahsul verimi (tahmin edilen değerler) bağımlı değişkendir.

Bağımsız değişkenler aynı zamanda öngörücü değişkenler olarak da adlandırılır. Benzer şekilde, bağımlı değişkenler de yanıt değişkenleri olarak bilinir.

Doğrusal regresyonda temel terminolojiler

Doğrusal regresyon analizini anlamak, bir dizi yeni terime aşina olmak anlamına da gelir. İstatistik veya makine öğrenimi dünyasına yeni adım attıysanız, bu terminolojileri adil bir şekilde anlamak yardımcı olacaktır.

Değişken: Sayılabilen veya ölçülebilen herhangi bir sayı, miktar veya özelliktir. Aynı zamanda bir veri öğesi olarak da adlandırılır. Gelir, yaş, hız ve cinsiyet örneklerdir.
Katsayı: Yanındaki değişkenle çarpılan bir sayıdır (genellikle bir tam sayı). Örneğin, 7x'te 7 sayısı katsayıdır.
Aykırı Değerler: Bunlar, diğerlerinden önemli ölçüde farklı olan veri noktalarıdır.
Kovaryans: İki değişken arasındaki doğrusal ilişkinin yönü. Başka bir deyişle, iki değişkenin doğrusal olarak ilişkili olma derecesini hesaplar.
Çok Değişkenli: Tek bir sonuçla sonuçlanan iki veya daha fazla bağımlı değişkeni içeren anlamına gelir.
Artıklar: Bağımlı değişkenin gözlenen ve tahmin edilen değerleri arasındaki fark.
Değişkenlik: Tutarlılığın olmaması veya bir dağılımın ne ölçüde sıkıştırıldığı veya esnetildiği.
Doğrusallık: Orantılılıkla yakından ilgili olan ve grafik olarak düz bir çizgi olarak gösterilebilen matematiksel bir ilişkinin özelliği.
Doğrusal fonksiyon: Grafiği düz bir doğru olan bir fonksiyondur.
Doğrusallık: Bir regresyon modelinde doğrusal bir ilişki sergileyecek şekilde bağımsız değişkenler arasındaki korelasyon.
Standart sapma (SD): Bir veri kümesinin ortalamasına göre dağılımının bir ölçüsüdür. Başka bir deyişle, sayıların ne kadar yayılmış olduğunun bir ölçüsüdür.
Standart hata (SE): İstatistiksel bir örnek popülasyonunun yaklaşık SD'si. Değişkenliği ölçmek için kullanılır.

Doğrusal regresyon türleri

İki tür lineer regresyon vardır: basit lineer regresyon ve çoklu lineer regresyon .

Basit doğrusal regresyon yöntemi, tek bir bağımsız değişken ile karşılık gelen bir bağımlı değişken arasındaki ilişkiyi bulmaya çalışır. Bağımsız değişken girdidir ve karşılık gelen bağımlı değişken çıktıdır.

İpucu: Python, R, MATLAB ve Excel dahil olmak üzere çeşitli programlama dillerinde ve ortamlarında doğrusal regresyon uygulayabilirsiniz.

Çoklu doğrusal regresyon yöntemi, iki veya daha fazla bağımsız değişken ile karşılık gelen bağımlı değişken arasındaki ilişkiyi bulmaya çalışır. Ayrıca çoklu doğrusal regresyonun özel bir durumu vardır. polinom regresyonu.

Basitçe söylemek gerekirse, basit bir doğrusal regresyon modeli yalnızca tek bir bağımsız değişkene sahipken, çoklu bir doğrusal regresyon modeli iki veya daha fazla bağımsız değişkene sahip olacaktır. Ve evet, oldukça karmaşık veri analizi için kullanılan başka doğrusal olmayan regresyon yöntemleri de vardır.

Lojistik regresyon ve lineer regresyon

Doğrusal regresyon, belirli bir bağımsız değişken kümesi için sürekli bağımlı değişkeni tahmin ederken, lojistik regresyon , kategorik bağımlı değişkeni tahmin eder.

Her ikisi de denetimli öğrenme yöntemleridir. Ancak, regresyon problemlerini çözmek için doğrusal regresyon kullanılırken, sınıflandırma problemlerini çözmek için lojistik regresyon kullanılır.

doğrusal regresyon ve lojistik regresyon

Elbette lojistik regresyon, regresyon problemlerini çözebilir, ancak esas olarak sınıflandırma problemlerinde kullanılır. Çıktısı sadece 0 veya 1 olabilir. İki sınıf arasındaki olasılıkları belirlemeniz veya başka bir deyişle bir olayın olasılığını hesaplamanız gereken durumlarda değerlidir. Örneğin, lojistik regresyon bugün yağmur yağıp yağmayacağını tahmin etmek için kullanılabilir.

Doğrusal regresyon varsayımları

Değişkenler arasındaki ilişkiyi modellemek için doğrusal regresyon kullanırken birkaç varsayımda bulunuruz. Varsayımlar, tahmin yapmak için bir model kullanmadan önce karşılanması gereken gerekli koşullardır.

Doğrusal regresyon modelleriyle ilgili genel olarak dört varsayım vardır:

Doğrusal ilişki: Bağımsız değişken x ile bağımlı değişken y arasında doğrusal bir ilişki vardır.
Bağımsızlık: Artıklar bağımsızdır. Zaman serisi verilerinde ardışık artıklar arasında bir ilişki yoktur.
Homoscedasticity: Artıklar tüm seviyelerde eşit varyansa sahiptir.
Normallik: Artıklar normal dağılmıştır.

Doğrusal regresyon modellerini çözme yöntemleri

Makine öğrenimi veya istatistik dilinde, doğrusal bir regresyon modeli öğrenmek, mevcut verileri kullanarak katsayıların değerlerini tahmin etmek anlamına gelir. Doğrusal bir regresyon modeline daha verimli hale getirmek için birkaç yöntem uygulanabilir.

İpucu: Monoton görevleri ortadan kaldırmak ve doğru tahminler yapmak için makine öğrenimi yazılımını kullanın.

Farklılıklarını ve ödünleşimlerini anlamak için doğrusal regresyon modellerini çözmek için kullanılan farklı tekniklere bakalım.

Basit doğrusal regresyon

Daha önce belirtildiği gibi, basit doğrusal regresyonda tek bir girdi veya bir bağımsız değişken ve bir bağımlı değişken vardır. Sürekli yapıda oldukları göz önüne alındığında, iki değişken arasındaki en iyi ilişkiyi bulmak için kullanılır. Örneğin, tüketilen kalorilere göre kazanılan kilo miktarını tahmin etmek için kullanılabilir.

Sıradan en küçük kareler

Sıradan en küçük kareler regresyonu , birden fazla bağımsız değişken veya girdi olduğunda katsayıların değerini tahmin etmek için başka bir yöntemdir. Doğrusal regresyonu çözmek için en yaygın yaklaşımlardan biridir ve normal denklem olarak da bilinir.

Bu prosedür, karesi alınmış artıkların toplamını en aza indirmeye çalışır. Verileri bir matris olarak ele alır ve her katsayı için en uygun değerleri belirlemek için doğrusal cebir işlemlerini kullanır. Elbette bu yöntem ancak tüm verilere erişimimiz varsa uygulanabilir ve ayrıca verileri sığdırmak için yeterli hafıza olmalıdır.

Dereceli alçalma

Gradyan iniş , doğrusal regresyon problemlerini çözmek için en kolay ve yaygın olarak kullanılan yöntemlerden biridir. Bir veya daha fazla girdi olduğunda yararlıdır ve modelin hatasını yinelemeli olarak en aza indirerek katsayıların değerini optimize etmeyi içerir.

Gradyan inişi, her katsayı için rastgele değerlerle başlar. Her bir girdi ve çıktı değeri çifti için karesi alınmış hataların toplamı hesaplanır. Öğrenme oranı olarak bir ölçek faktörü kullanır ve her katsayı hatayı en aza indirecek yönde güncellenir.

İşlem, daha fazla iyileştirme mümkün olmayana veya minimum kareler toplamı elde edilene kadar tekrarlanır. Degrade iniş, belleğe sığmayan çok sayıda satır ve sütun içeren büyük bir veri kümesi olduğunda yararlıdır.

düzenlileştirme

Düzenlileştirme , bir modelin karesel hatalarının toplamını en aza indirmeye çalışan ve aynı zamanda modelin karmaşıklığını azaltan bir yöntemdir. Sıradan en küçük kareler yöntemini kullanarak karesel hataların toplamını azaltır.

Kement regresyonu ve sırt regresyonu , doğrusal regresyonda düzenlileştirmenin iki ünlü örneğidir. Bu yöntemler, bağımsız değişkenlerde doğrusallık olduğunda değerlidir.

Adam'ın yöntemi

Uyarlamalı moment tahmini veya ADAM , aşağıdakilerde kullanılan bir optimizasyon algoritmasıdır. derin öğrenme. Gürültülü veriler üzerinde iyi performans gösteren yinelemeli bir algoritmadır. Uygulaması kolaydır, hesaplama açısından verimlidir ve minimum bellek gereksinimlerine sahiptir.

ADAM, iki gradyan iniş algoritmasını birleştirir – ortalama karekök yayılımı (RMSprop) ve uyarlanabilir gradyan inişi . ADAM, gradyanı hesaplamak için tüm veri kümesini kullanmak yerine, stokastik bir tahmin yapmak için rastgele seçilen alt kümeleri kullanır.

ADAM, çok sayıda parametre veya veri içeren problemler için uygundur. Ayrıca, bu optimizasyon yönteminde, hiperparametreler genellikle minimum ayar gerektirir ve sezgisel yorumlamaya sahiptir.

Tekil değer ayrışımı

Tekil değer ayrıştırma veya SVD , doğrusal regresyonda yaygın olarak kullanılan bir boyutsallık azaltma tekniğidir. Öğrenme algoritması için boyut sayısını azaltan bir ön işleme adımıdır.

SVD, bir matrisi diğer üç matrisin bir ürünü olarak parçalamayı içerir. Yüksek boyutlu veriler için uygundur ve küçük veri kümeleri için verimli ve kararlıdır. Kararlılığı nedeniyle lineer regresyon için lineer denklemlerin çözümünde en çok tercih edilen yaklaşımlardan biridir. Ancak, aykırı değerlere karşı hassastır ve büyük bir veri kümesiyle kararsız hale gelebilir.

Doğrusal regresyon için veri hazırlama

Gerçek dünya verileri çoğu durumda eksiktir.

Diğer tüm makine öğrenimi modellerinde olduğu gibi, veri hazırlama ve ön işleme, doğrusal regresyonda çok önemli bir süreçtir. Eksik değerler, hatalar, aykırı değerler, tutarsızlıklar ve öznitelik değerleri eksikliği olacaktır.

İşte eksik verileri hesaba katmanın ve daha güvenilir bir tahmin modeli oluşturmanın bazı yolları.

Doğrusal regresyon, tahmin edici ve yanıt değişkenlerinin gürültülü olmadığını düşünür. Bu nedenle, birkaç veri temizleme işlemiyle gürültünün giderilmesi çok önemlidir. Mümkünse, çıktı değişkenindeki aykırı değerleri kaldırmalısınız.
Girdi ve çıktı değişkenleri Gauss dağılımına sahipse, doğrusal regresyon daha iyi tahminler yapacaktır.
Normalleştirme veya standardizasyon kullanarak girdi değişkenlerini yeniden ölçeklendirirseniz , doğrusal regresyon genellikle daha iyi tahminler yapar.
Çok sayıda öznitelik varsa, verileri doğrusal bir ilişkiye sahip olacak şekilde dönüştürmeniz gerekir.
Girdi değişkenleri yüksek oranda ilişkiliyse, doğrusal regresyon verilere fazla uyacaktır. Bu gibi durumlarda, doğrusallığı kaldırın .

Doğrusal regresyonun avantajları ve dezavantajları

Doğrusal regresyon, anlaşılması en karmaşık olmayan ve uygulanması en basit algoritmalardan biridir. Değişkenler arasındaki ilişkileri analiz etmek için harika bir araçtır.

Doğrusal regresyonun bazı önemli avantajları şunlardır:

Basitliği nedeniyle bir go-to algoritmasıdır.
Aşırı sığdırmaya duyarlı olmasına rağmen, boyut küçültme teknikleri yardımıyla önlenebilir.
İyi yorumlanabilirliğe sahiptir.
Doğrusal olarak ayrılabilir veri kümelerinde iyi performans gösterir.
Uzay karmaşıklığı düşüktür; bu nedenle, yüksek gecikmeli bir algoritmadır.

Bununla birlikte, pratik uygulamaların çoğu için doğrusal regresyon genellikle önerilmez. Bunun nedeni, değişkenler arasında doğrusal bir ilişki olduğunu varsayarak gerçek dünya problemlerini aşırı basitleştirmesidir.

Doğrusal regresyonun bazı dezavantajları şunlardır:

Aykırı değerlerin regresyon üzerinde olumsuz etkileri olabilir
Doğrusal bir modele uyması için değişkenler arasında doğrusal bir ilişki olması gerektiğinden, değişkenler arasında doğrusal bir ilişki olduğunu varsayar.
Verilerin normal dağıldığını algılar.
Ayrıca bağımsız ve bağımlı değişkenlerin ortalaması arasındaki ilişkiye de bakar.
Doğrusal regresyon, değişkenler arasındaki ilişkilerin tam bir açıklaması değildir.
Değişkenler arasında yüksek bir korelasyonun varlığı, doğrusal bir modelin performansını önemli ölçüde etkileyebilir.

Önce gözlemle, sonra tahmin et

Doğrusal regresyonda, değişkenlerin doğrusal bir ilişkisi olup olmadığını değerlendirmek çok önemlidir. Bazı insanlar trende bakmadan tahmin etmeye çalışsa da, değişkenler arasında orta derecede güçlü bir korelasyon olduğundan emin olmak en iyisidir.

Daha önce bahsedildiği gibi, dağılım grafiğine ve korelasyon katsayısına bakmak mükemmel yöntemlerdir. Ve evet, korelasyon yüksek olsa bile, dağılım grafiğine bakmak daha iyidir. Kısacası, veriler görsel olarak doğrusal ise, doğrusal regresyon analizi yapılabilir.

Doğrusal regresyon, bağımlı bir değişkenin değerini tahmin etmenizi sağlarken, yeni veri noktalarını sınıflandıran veya komşularına bakarak değerlerini tahmin eden bir algoritma vardır. Buna k-en yakın komşular algoritması denir ve tembel bir öğrenicidir.