Keşfedici veri analizi: Veri Bilimi Üzerindeki Etki
Yayınlanan: 2022-05-25Amerikalı matematikçi John Tukey İlk olarak 1970'lerde keşifsel Veri Analizi (EDA) geliştirdi. Günümüzde hala EDA teknikleri, veri keşif sürecinde yaygın olarak kullanılan bir yöntem olmaya devam etmektedir. Resmi modelleme veya hipotez testinin ötesinde, EDA, Veri seti değişkenlerinin ve bunların ilişkilerinin daha iyi anlaşılması için geniş bir kapı açar. Ayrıca veri analizi için düşünülen İstatistiksel Tekniğin uygun olup olmadığının belirlenmesine yardımcı olur.
Keşfedici veri analizi nedir?
Keşifsel Veri Analizi (EDA), Veri Bilimcileri tarafından Veri kümelerini analiz ederken ve araştırırken, verilerin ana özelliklerini görselleştirme yöntemine özetleyerek yaygın olarak kullanılır. Veri Bilimcisinin Veri Modellerini, Nokta anormalliklerini, hipotez testini ve/veya varsayımı keşfetmesine yardımcı olur.
Bu nedenle basit bir şekilde, Veri Bilimcisinin bir hedef olarak ihtiyaç duyulan yanıtı almak için verilen veri kaynağını manipüle etmenin en iyi yollarını belirlemesine yardımcı olan bir yöntem olarak tanımlanabilir.
Keşifsel Veri Analizi Veri Bilimi Ne Kadar Önemlidir?
EDA'nın birincil amacı, herhangi bir varsayımda bulunmadan önce veri kümesine derinlemesine bakmaya, bariz hataları belirlemeye, veri kümesi içindeki kalıpları daha iyi anlamaya, aykırı değerleri ve/veya anormal olayları anlamaya ve son olarak ama en az değil, yardımcı olmaktır. Değişkenler arasındaki heyecan verici ilişkileri bulun.
Keşifsel Veri Analizi, Veri Bilimi alanındaki Veri Analizi için son derece önemlidir. İlk olarak, EDA, Veri bilimcilerinin ürettiği sonuçların geçerli ve istenen herhangi bir hedefe uygulanabilir olmasını sağlamak için kullanılır. İkincisi, EDA paydaşların her zaman doğru soruları sorduklarından emin olmalarına yardımcı olur. Ayrıca standart sapmalar, kategorik değişkenler ve güven aralıkları ile ilgili soruları yanıtlamaya yardımcı olur. Son olarak, EDA tamamlandıktan ve içgörüler elde edildikten sonra özellikleri, makine öğrenimi de dahil olmak üzere daha karmaşık veri analizi veya modellemesi için kullanılabilir.
Keşfedici veri analizi Türleri
Öncelikle dört tür EDA vardır:
Tek değişkenli grafiksel olmayan:
Tek Değişkenli Grafik Olmayan, veri analizinin en basit şeklidir. burada sadece bir değişkenden oluşur. Tek bir değişken olduğu için nedenler veya ilişkilerle ilgilenmez. Bunun yerine, tek değişkenli analizin birincil amacı, verileri tanımlamak ve içindeki kalıpları bulmaktır.
tek değişkenli grafik
Grafik olmayan yöntemler, verilerin tam bir resmini sağlayamaz. Bu nedenle burada grafiksel yöntemler gereklidir. Tek değişkenli grafiklerin yaygın türleri şunlardır:
- Gövde ve yaprak grafikleri: Bunlar, tüm veri değerlerini ve dağılımın şeklini gösterir.
- Histogramlar bir çubuk grafiği: burada her bir çubuk, bir değer aralığı için vakaların sıklığını (sayım) veya oranını (sayım/toplam sayı) temsil eder.
- Kutu çizimleri: minimum, ilk çeyrek, medyan, üçüncü çeyrek ve maksimumun beş sayılı özetini grafiksel olarak gösterir.
Çok değişkenli grafiksel olmayan
Çok değişkenli veriler birden fazla değişkenden ortaya çıkar. Genel olarak, Çok değişkenli grafik olmayan EDA teknikleri, iki veya daha fazla veri değişkeni arasındaki ilişkiyi çapraz tablolama veya istatistik yoluyla gösterir.

çok değişkenli grafik
Çok değişkenli veriler, iki veya daha fazla Veri Kümesi arasındaki ilişkileri görüntülerken grafikleri kullanır. En çok kullanılan grafik, her grubun değişkenlerden birinin bir düzeyini temsil ettiği ve bir grup içindeki her çubuğun diğer değişkenin düzeylerini temsil ettiği gruplandırılmış bir çubuk grafiği veya çubuk grafiktir.
Çok değişkenli grafiklerin diğer yaygın türleri şunları içerir:
- Dağılım grafiği: Bir değişkenin diğerinden ne kadar etkilendiğini göstermek için veri noktalarını yatay ve dikey eksende çizmek için kullanılır.
- Çok değişkenli çizelge: Faktörler ve bir yanıt arasındaki ilişkilerin grafiksel bir temsilidir.
- Akış Çizelgesi: Zaman içinde çizilen verilerin bir çizgi grafiğidir.
- Kabarcık grafiği: İki boyutlu bir çizimde birden çok daire (kabarcık) görüntüleyen bir veri görselleştirmesidir.
- Isı haritası: Değerlerin renkle gösterildiği verilerin grafiksel bir temsilidir.
Keşifsel veri analizi Araçları
Keşfedici veri analizi için birçok araç mevcuttur. En popüler olanlardan bazıları R, Python ve SAS'tır. Bununla birlikte, her birinin güçlü ve zayıf yönleri vardır, bu nedenle iş için doğru aracı seçmek çok önemlidir.
R, verileri görselleştirmek için mükemmel bir araçtır. Verileri keşfetmek için kullanılabilecek çok çeşitli grafiklere ve grafiklere sahiptir. Ayrıca daha gelişmiş analizler yapmak için kullanılabilecek birçok istatistiksel fonksiyona sahiptir.
Python, EDA için başka bir harika araçtır. R ile aynı özelliklerin çoğuna sahiptir, ancak aynı zamanda daha kullanıcı dostudur. Sonuç olarak Python, veri analizine başlamak isteyen yeni başlayanlar için mükemmel bir seçimdir.
SAS, EDA için kullanılabilecek güçlü bir istatistiksel yazılım paketidir. SAS, R ve Python'dan daha pahalıdır, ancak daha karmaşık hesaplamalar yapmanız gerekiyorsa, yatırıma değer.
QuestionPro ve keşifsel veri analizi
Verilerinizi her zaman farklı bir veri kaynağından alabilirsiniz ve QuestionPro, anket verilerini birden fazla kanaldan toplamanıza kesinlikle yardımcı olabilir. Ancak, halihazırda toplanmış olan verilerin ötesine geçmek istediğinizde ne olur? İşte burada keşifsel veri analizi devreye giriyor.
QuestionPro'nun yerleşik analiz araçları, EDA'ya başlamayı kolaylaştırır. Verileriniz için hızlı bir şekilde özet istatistikleri görebilir, etkileşimli görselleştirmeler oluşturabilir ve daha fazlasını yapabilirsiniz. Ve QuestionPro, R ile entegre olduğu için, R'nin sunduğu tüm güçlü istatistiksel araçları kullanabilirsiniz.
Dolayısıyla, veri analizinizi bir sonraki seviyeye taşımaya hazırsanız, QuestionPro mükemmel araçlardan biridir.
Çözüm
Son olarak, keşifsel veri analizinin, Veri Bilimcilerinin karmaşık veri kümelerini anlamlandırmasına yardımcı olabilecek kanıtlanmış bir metodoloji olduğunu söyleyebiliriz. Görselleştirmeleri ve diğer yöntemleri kullanarak, başka türlü bulamamış olabileceğiniz kalıpları ve ilişkileri ortaya çıkarabilirsiniz.
Bu nedenle, EDA herhangi bir veri analizinin önemli bir parçasıdır ve bu makalenin size konuya harika bir giriş sağladığını umuyoruz.
Questionpro.com'a kaydolarak QuestionPro hakkında daha fazla bilgi ve Keşifsel Veri Analizi hakkında bilgi edinin .
Yazarlar: Musaddiq Shaikh & Abhishek Pachauri