Veri Ön İşleme Nedir? Doğru Yapmak İçin 4 Önemli Adım

Yayınlanan: 2021-08-06

Gerçek dünya verileri çoğu durumda eksik, gürültülü ve tutarsızdır.

Katlanarak artan veri üretimi ve artan sayıda heterojen veri kaynağı ile anormal veya hatalı veri toplama olasılığı oldukça yüksektir.

Ancak yalnızca yüksek kaliteli veriler doğru modellere ve nihayetinde doğru tahminlere yol açabilir. Bu nedenle, verileri mümkün olan en iyi kalite için işlemek çok önemlidir. Bu veri işleme adımına veri ön işleme denir ve bu veri bilimindeki temel adımlardan biridir. makine öğrenimi ve yapay zeka.

Veri ön işleme nedir?

Veri ön işleme , ham verileri kullanışlı, anlaşılır bir formata dönüştürme işlemidir. Gerçek dünya veya ham veriler genellikle tutarsız biçimlendirmeye, insan hatalarına sahiptir ve ayrıca eksik olabilir. Veri ön işleme, bu tür sorunları çözer ve veri analizi gerçekleştirmek için veri kümelerini daha eksiksiz ve verimli hale getirir.

Veri madenciliği ve makine öğrenimi projelerinin başarısını etkileyebilecek çok önemli bir süreçtir. Veri kümelerinden bilgi keşfini daha hızlı hale getirir ve sonuçta makine öğrenimi modellerinin performansını etkileyebilir.

%45

Bir veri bilimcisinin zamanının yüzdesi, veri hazırlama görevlerine harcanır.

Kaynak: Datanami

Başka bir deyişle, veri ön işleme, verileri bilgisayarların kolayca üzerinde çalışabileceği bir forma dönüştürmektir. Veri analizini veya görselleştirmeyi kolaylaştırır ve veriler üzerinde eğitim veren makine öğrenimi algoritmalarının doğruluğunu ve hızını artırır.

Veri ön işleme neden gereklidir?

Bildiğiniz gibi, bir veritabanı bir veri noktaları topluluğudur. Veri noktalarına gözlemler, veri örnekleri, olaylar ve kayıtlar da denir.

Her numune, özellikler veya nitelikler olarak da bilinen farklı özellikler kullanılarak tanımlanır. Bu özelliklere sahip modelleri etkili bir şekilde oluşturmak için veri ön işlemesi gereklidir.

Veri toplanırken birçok sorun ortaya çıkabilir. Tamsayı ve kayan nokta gibi uyumsuz veri biçimlerine yol açan farklı veri kaynaklarından veri toplamanız gerekebilir.

İpucu: Şunun otomasyon özelliklerini kullanın: makine öğrenimi yazılımı ve bu sıkıcı görevlere elveda deyin.

İki veya daha fazla bağımsız veri kümesinden veri topluyorsanız, cinsiyet alanında erkekler için iki farklı değer olabilir: erkek ve erkek. Benzer şekilde, on farklı veri kümesinden veri topluyorsanız, bunların sekizinde bulunan bir alan geri kalan ikisinde eksik olabilir.

Verileri önceden işleyerek yorumlamayı ve kullanmayı kolaylaştırıyoruz. Bu işlem, bir modelin doğruluğunu olumsuz yönde etkileyebilecek verilerdeki tutarsızlıkları veya yinelemeleri ortadan kaldırır. Veri ön işleme, insan hatası veya hatalardan kaynaklanan herhangi bir yanlış veya eksik değer olmamasını da sağlar. Kısacası, veri ön işleme tekniklerini kullanmak, veritabanını daha eksiksiz ve doğru hale getirir.

Kalite verilerinin özellikleri

Makine öğrenimi algoritmaları için kaliteden daha önemli bir şey yoktur Eğitim verileri. Performansları veya doğruluğu, verilerin ne kadar ilgili, temsili ve kapsamlı olduğuna bağlıdır.

Verilerin nasıl ön işlendiğine bakmadan önce, veri kalitesine katkıda bulunan bazı faktörlere bakalım.

Doğruluk: Adından da anlaşılacağı gibi doğruluk, bilgilerin doğru olduğu anlamına gelir. Eski bilgiler, yazım hataları ve fazlalıklar bir veri kümesinin doğruluğunu etkileyebilir.
Tutarlılık: Verilerde çelişki olmamalıdır. Tutarsız veriler size aynı soruya farklı cevaplar verebilir.
Tamlık: Veri kümesinde eksik alanlar bulunmamalı veya boş alanlar bulunmamalıdır. Bu özellik, veri bilimcilerin, verilerin açıkladığı durumun tam bir resmine erişimleri olduğu için doğru analizler yapmalarını sağlar.
Geçerlilik: Veri örnekleri doğru biçimde görünüyorsa, belirli bir aralıktaysa ve doğru türdeyse, bir veri kümesi geçerli kabul edilir. Geçersiz veri kümelerini düzenlemek ve analiz etmek zordur.
Zamanlılık: Veri, temsil ettiği olay gerçekleşir gerçekleşmez toplanmalıdır. Zaman geçtikçe, her veri kümesi mevcut gerçekliği temsil etmediği için daha az doğru ve kullanışlı hale gelir. Bu nedenle, verilerin güncelliği ve uygunluğu kritik bir veri kalitesi özelliğidir.

Veri ön işlemenin dört aşaması

Makine öğrenimi modelleri için veriler yemdir.

Eksik bir eğitim seti, belirli bir grup insan için haksız bir avantaj veya dezavantaja yol açan önyargı gibi istenmeyen sonuçlara yol açabilir. Eksik veya tutarsız veriler, veri madenciliği projelerinin sonucunu da olumsuz etkileyebilir. Bu tür sorunları çözmek için veri ön işleme süreci kullanılır.

Veri işlemenin dört aşaması vardır: temizleme, entegrasyon, azaltma ve dönüştürme.

1. Veri temizleme

Veri temizleme veya temizleme, eksik değerleri hesaba katarak, aykırı değerleri kaldırarak, tutarsız veri noktalarını düzelterek ve gürültülü verileri yumuşatarak veri kümelerini temizleme işlemidir. Özünde, veri temizlemenin arkasındaki amaç, makine öğrenimi modelleri için eksiksiz ve doğru örnekler sunmaktır.

Veri temizlemede kullanılan teknikler, veri bilimcinin tercihlerine ve çözmeye çalıştıkları soruna özeldir. Veri temizleme sırasında çözülen sorunlara ve ilgili tekniklere hızlı bir bakış.

Kayıp değerler

Eksik veri değerleri sorunu oldukça yaygındır. Veri toplama sırasında veya belirli bir veri doğrulama kuralı nedeniyle olabilir. Bu gibi durumlarda, ek veri örnekleri toplamanız veya ek veri kümeleri aramanız gerekir.

Eksik değerler sorunu, daha büyük bir veri kümesi oluşturmak için iki veya daha fazla veri kümesini birleştirdiğinizde de ortaya çıkabilir. Her iki veri kümesinde de tüm alanlar mevcut değilse, birleştirmeden önce bu alanları silmek daha iyidir.

Eksik verileri hesaba katmanın bazı yolları şunlardır:

Eksik değerleri manuel olarak doldurun. Bu sıkıcı ve zaman alıcı bir yaklaşım olabilir ve büyük veri kümeleri için önerilmez.
Eksik veri değerini değiştirmek için standart bir değer kullanın. Eksik değeri değiştirmek için "unknown" veya "N/A" gibi global bir sabit kullanabilirsiniz. Basit bir yaklaşım olmasına rağmen, kusursuz değildir.
Eksik değeri en olası değerle doldurun. Olası değeri tahmin etmek için aşağıdaki gibi algoritmalar kullanabilirsiniz: lojistik regresyon veya karar ağaçları.
Eksik değeri değiştirmek için merkezi bir eğilim kullanın. Merkezi eğilim, bir değerin ortalaması, modu veya medyanı etrafında kümelenme eğilimidir.

Veritabanındaki herhangi bir satır veya sütun için değerlerin yüzde 50'si eksikse, yukarıdaki yöntemlerden herhangi birini kullanarak değerleri doldurmak mümkün olmadığı sürece tüm satırı veya sütunu silmek daha iyidir.

Gürültülü veriler

Büyük miktarda anlamsız veriye gürültü denir. Daha doğrusu, ölçülen bir değişkendeki rastgele varyans veya yanlış öznitelik değerlerine sahip verilerdir. Gürültü, veri noktalarının çift veya yarı kopyalarını, belirli bir araştırma süreci için değeri olmayan veri segmentlerini veya istenmeyen bilgi alanlarını içerir.

Örneğin, bir kişinin araba kullanıp kullanamayacağını tahmin etmeniz gerekiyorsa, saç rengi, boyu veya kilosu hakkındaki bilgiler önemsiz olacaktır.

Bazıları bunu geçerli bir veri noktası olarak görse de, aykırı değer gürültü olarak değerlendirilebilir. Resimlerdeki kaplumbağaları tespit etmek için bir algoritma eğittiğinizi varsayalım. Görüntü veri kümesi, yanlış bir şekilde kaplumbağa olarak etiketlenmiş kaplumbağaların görüntülerini içerebilir. Bu gürültü olarak kabul edilebilir.

Ancak, kaplumbağadan çok kaplumbağaya benzeyen bir kaplumbağa görüntüsü olabilir. Bu örnek bir aykırı değer olarak kabul edilebilir ve mutlaka gürültü olmayabilir. Bunun nedeni, algoritmaya kaplumbağaları tespit etmenin tüm olası yollarını öğretmek istememizdir ve bu nedenle gruptan sapma esastır.

Sayısal değerler için, aykırı değerleri belirlemek için bir dağılım grafiği veya kutu grafiği kullanabilirsiniz.

Gürültü sorununu çözmek için kullanılan bazı yöntemler şunlardır:

Regresyon: Regresyon analizi, etkisi olan değişkenlerin belirlenmesine yardımcı olabilir. Bu, büyük hacimli verileri analiz etmek yerine yalnızca temel özelliklerle çalışmanıza olanak tanır. Verileri yumuşatmak için hem doğrusal regresyon hem de çoklu doğrusal regresyon kullanılabilir.
Binning: Binning yöntemleri, sıralanmış bir veri koleksiyonu için kullanılabilir. Etrafındaki değerlere bakarak sıralanmış bir değeri düzeltirler. Sıralanan değerler daha sonra "binlere" bölünür, bu da verileri aynı boyuttaki daha küçük bölümlere ayırmak anlamına gelir. Bölme aracıyla düzleştirme ve bölme ortancaları ile düzleştirme dahil olmak üzere bölmeye ayırma için farklı teknikler vardır.
Kümeleme: Verileri gruplamak ve süreçteki aykırı değerleri tespit etmek için k-ortalama kümeleme gibi kümeleme algoritmaları kullanılabilir.

2. Veri entegrasyonu

Veriler çeşitli kaynaklardan toplandığından, veri entegrasyonu veri hazırlamanın çok önemli bir parçasıdır. Entegrasyon, birkaç tutarsız ve fazla veri noktasına yol açabilir ve sonuçta daha düşük doğrulukta modellere yol açabilir.

Verileri entegre etmek için bazı yaklaşımlar şunlardır:

Veri konsolidasyonu: Veriler fiziksel olarak bir araya getirilir ve tek bir yerde saklanır. Tüm verilerin tek bir yerde olması verimliliği ve üretkenliği artırır. Bu adım tipik olarak şunları kullanmayı içerir: veri ambarı yazılımı.
Veri sanallaştırma: Bu yaklaşımda, bir arayüz, birden çok kaynaktan gelen verilerin birleşik ve gerçek zamanlı bir görünümünü sağlar. Başka bir deyişle, veriler tek bir bakış açısından görüntülenebilir.
Veri yayılımı: Belirli uygulamaların yardımıyla verilerin bir konumdan diğerine kopyalanmasını içerir. Bu süreç senkron veya asenkron olabilir ve genellikle olaya dayalıdır.

3. Veri azaltma

Adından da anlaşılacağı gibi, veri azaltma , veri miktarını azaltmak ve böylece veri madenciliği veya veri analizi ile ilgili maliyetleri azaltmak için kullanılır.

Veri kümesinin yoğunlaştırılmış bir temsilini sunar. Bu adım hacmi azaltsa da, orijinal verilerin bütünlüğünü korur. Bu veri ön işleme adımı, ilgili veri miktarı devasa olacağından, büyük verilerle çalışırken özellikle önemlidir.

Aşağıdakiler, veri azaltma için kullanılan bazı tekniklerdir.

Boyutsal küçülme

Boyut küçültme olarak da bilinen boyutsallık azaltma, bir veri kümesindeki özelliklerin veya girdi değişkenlerinin sayısını azaltır.

Bir veri kümesinin özniteliklerinin veya girdi değişkenlerinin sayısına, onun boyutluluğu denir. Öznitelik sayısı ne kadar yüksek olursa, eğitim veri setini görselleştirmek ve tahmine dayalı bir model oluşturmak o kadar zahmetli olur.

Bazı durumlarda, bu niteliklerin çoğu bağıntılıdır, dolayısıyla gereksizdir; bu nedenle, boyutsallık azaltma algoritmaları, rastgele değişkenlerin sayısını azaltmak ve bir dizi temel değişken elde etmek için kullanılabilir.

Boyut azaltmanın iki bölümü vardır: özellik seçimi ve özellik çıkarma.

Özellik seçiminde orijinal özellik kümesinin bir alt kümesini bulmaya çalışırız. Bu, veri modellemeyi kullanarak sorunu görselleştirmek için kullanılabilecek daha küçük bir alt küme elde etmemizi sağlar. Öte yandan, özellik çıkarımı , yüksek boyutlu bir uzaydaki verileri daha düşük boyutlu bir uzaya, başka bir deyişle daha az sayıda boyuta sahip uzaya indirger.

Boyut azaltmayı gerçekleştirmenin bazı yolları şunlardır:

Temel bileşen analizi (PCA): Büyük bir değişken kümesinden yeni bir değişken kümesi çıkarmak için kullanılan istatistiksel bir teknik. Yeni çıkarılan değişkenlere temel bileşenler denir. Bu yöntem yalnızca sayısal değerlere sahip özellikler için çalışır.
Yüksek korelasyon filtresi: Yüksek düzeyde ilişkili özellikleri bulmak ve bunları kaldırmak için kullanılan bir teknik; aksi takdirde, bir çift yüksek korelasyonlu değişken, veri setindeki çoklu doğrusallığı artırabilir.
Eksik değerler oranı: Bu yöntem, belirli bir eşik değerinden daha fazla eksik değere sahip öznitelikleri kaldırır.
Düşük varyans filtresi: Verideki küçük değişiklikler daha az bilgiye dönüştüğü için bir eşik değerinden daha düşük varyansa sahip normalleştirilmiş özniteliklerin kaldırılmasını içerir.
Rastgele orman: Bu teknik, bir veri kümesindeki her özelliğin önemini değerlendirmek için kullanılır ve yalnızca en önemli özellikleri tutmamıza izin verir.

Diğer boyutluluk azaltma teknikleri arasında faktör analizi, bağımsız bileşen analizi ve doğrusal diskriminant analizi (LDA) bulunur.

Özellik alt kümesi seçimi

Özellik alt küme seçimi , en çok katkıda bulunan veya en önemli özelliklerin veya niteliklerin bir alt kümesini seçme işlemidir.

Benzer öğrencilerin geçmiş verilerine bakarak bir öğrencinin geçip geçmeyeceğini tahmin etmeye çalıştığınızı varsayalım. Dört özelliğe sahip bir veri kümeniz var: ders sayısı, toplam puanlar, çalışma saatleri ve ders dışı etkinlikler.

Bu durumda, rulo sayıları öğrencilerin performansını etkilemez ve elenebilir. Yeni alt küme yalnızca üç özelliğe sahip olacak ve orijinal kümeden daha verimli olacak.

Bu veri azaltma yaklaşımı, daha hızlı ve daha uygun maliyetli makine öğrenimi modelleri oluşturmaya yardımcı olabilir. Nitelik alt küme seçimi de veri dönüştürme adımında gerçekleştirilebilir.

Sayısallık azaltma

Sayısallık azaltma , orijinal verileri daha küçük bir veri temsili biçimiyle değiştirme işlemidir. Bunu gerçekleştirmenin iki yolu vardır: parametrik ve parametrik olmayan yöntemler.

Parametrik yöntemler , veri temsili için modelleri kullanır. Bu tür modelleri oluşturmak için log-lineer ve regresyon yöntemleri kullanılır. Buna karşılık, parametrik olmayan yöntemler , kümeleme, histogramlar, veri küpü toplama ve veri örnekleme kullanarak azaltılmış veri temsillerini depolar.

4. Veri dönüşümü

Veri dönüştürme , verileri bir biçimden diğerine dönüştürme işlemidir. Özünde, verileri bilgisayarın verimli bir şekilde öğrenebileceği uygun biçimlere dönüştürmek için yöntemler içerir.

Örneğin, hız birimleri saatte mil, saniyede metre veya saatte kilometre olabilir. Bu nedenle bir veri seti, bir arabanın hızının değerlerini bu şekilde farklı birimlerde saklayabilir. Bu verileri bir algoritmaya beslemeden önce verileri aynı birime dönüştürmemiz gerekiyor.

Aşağıdakiler, veri dönüştürme için bazı stratejilerdir.

yumuşatma

Bu istatistiksel yaklaşım, algoritmalar yardımıyla verilerden gürültü çıkarmak için kullanılır. Bir veri kümesindeki en değerli özellikleri vurgulamaya ve kalıpları tahmin etmeye yardımcı olur. Ayrıca, kalıpları daha görünür hale getirmek için veri kümesinden aykırı değerleri ortadan kaldırmayı da içerir.

Toplama

Toplama, birden çok kaynaktan gelen verilerin bir havuzda toplanması ve veri madenciliği veya analizi için birleşik bir biçimde sunulması anlamına gelir. Veri noktalarının sayısını artırmak için çeşitli kaynaklardan gelen verileri toplamak esastır, çünkü ancak o zaman ML modeli öğrenilecek yeterli örneğe sahip olacaktır.

Ayrıştırma

Ayrıklaştırma, sürekli verilerin daha küçük aralık kümelerine dönüştürülmesini içerir. Örneğin, insanları "genç", "genç yetişkin", "orta yaş" veya "kıdemli" gibi kategorilere yerleştirmek, sürekli yaş değerleri kullanmaktan daha etkilidir.

genelleme

Genelleme, düşük seviyeli veri özelliklerini yüksek seviyeli veri özelliklerine dönüştürmeyi içerir. Örneğin, ev adresi gibi kategorik nitelikler, şehir veya eyalet gibi daha üst düzey tanımlara genelleştirilebilir.

normalleştirme

Normalleştirme, tüm veri değişkenlerini belirli bir aralığa dönüştürme sürecini ifade eder. Başka bir deyişle, bir özniteliğin değerlerini, örneğin 0'dan 1'e kadar daha küçük bir aralığa düşecek şekilde ölçeklendirmek için kullanılır.

Özellik yapısı

Özellik oluşturma, verilen özellik kümesinden yeni özellikler oluşturmayı içerir. Bu yöntem, orijinal veri kümesini basitleştirir ve verileri analiz etmeyi, çıkarmayı veya görselleştirmeyi kolaylaştırır.

Kavram hiyerarşisi oluşturma

Konsept hiyerarşisi oluşturma, belirtilmemiş olmasına rağmen, özellikler arasında bir hiyerarşi oluşturmanıza olanak tanır. Örneğin, sokak, şehir, eyalet ve ülke hakkında veriler içeren bir ev adresi veri kümeniz varsa, verileri hiyerarşik formlarda düzenlemek için bu yöntem kullanılabilir.

Doğru veriler, doğru sonuçlar

Makine öğrenimi algoritmaları çocuklar gibidir. Neyin olumlu ya da olumsuz olduğu konusunda çok az veya hiç anlayışları yok. Çocukların yetişkinlerden aldıkları kötü bir dili tekrar etmeye başlamaları gibi, yanlış veya tutarsız veriler makine öğrenimi modellerini kolayca etkiler. Anahtar, veri ön işlemenin önemli bir adım olduğu yüksek kaliteli, doğru verileri beslemektir.

Makine öğrenimi algoritmalarından genellikle çalışkan olarak bahsedilir. Ancak genellikle tembel olarak etiketlenen bir algoritma var. Buna k-en yakın komşu algoritması denir ve mükemmel bir sınıflandırma algoritmasıdır.