Veri Keşfinin Tanımı
Veri keşfi (Exploratory Data Analysis - EDA), veri setinin temel özelliklerini anlamak ve özetlemek için kullanılan bir süreçtir. Bu süreçte, verilerin dağılımı, ilişkileri ve temel desenleri keşfedilir. Veri keşfi, veri setinin temizlenmesi, dönüştürülmesi ve analiz edilmesi için gerekli adımları içerir.
Veri Keşfi Adımları
Veri Setini Anlama
İlk Keşif ve Fonksiyonlarla İnceleme
Kategorik Değerlerin Sayılması
Veri Doğrulama ve Temizleme
Veri Özetleme ve Görselleştirme
1. Veri Setini Anlama
Veri Setinin Yüklenmesi: Veri keşfi sürecinin ilk adımı, veri setinin yüklenmesi ve temel özelliklerinin incelenmesidir.
import pandas as pd
# Veri setini yükleme
veri = pd.read_csv('ornek_veri.csv')
# İlk 5 satırı görüntüleme
print(veri.head())
Veri Setinin Özelliklerini İnceleme: Veri setinin temel istatistiklerini ve veri türlerini inceleyerek genel bir fikir edinelim.
# Veri setinin temel istatistikleri
print(veri.describe())
# Veri türlerini inceleme
print(veri.dtypes)
2. İlk Keşif ve Fonksiyonlarla İnceleme
Dağılım ve İlişkileri İnceleme: Veri setindeki dağılımı ve ilişkileri anlamak için temel istatistiksel fonksiyonları kullanabiliriz.
# Belirli bir sütunun ortalamasını hesaplama
print(veri['sütun_adi'].mean())
# Sütunlar arasındaki korelasyonu hesaplama
print(veri.corr())
3. Kategorik Değerlerin Sayılması
Kategorik Değerlerin İncelenmesi: Kategorik değişkenlerin dağılımını ve frekansını incelemek, veri setinin genel yapısını anlamamıza yardımcı olur.
# Kategorik değerlerin frekans dağılımı
print(veri['kategorik_sutun'].value_counts())
4. Veri Doğrulama ve Temizleme
Veri Doğrulama: Veri doğrulama, veri setindeki olası hataları ve tutarsızlıkları tespit etmek için yapılan işlemdir. Veri doğrulama, veri türlerinin kontrol edilmesi, eksik verilerin tespiti ve veri aralıklarının doğrulanmasını içerir.
# Eksik verilerin tespiti
print(veri.isnull().sum())
# Belirli bir sütundaki eksik verileri doldurma
veri['sütun_adi'].fillna(veri['sütun_adi'].mean(), inplace=True)
Veri Temizleme: Veri temizleme, eksik, hatalı veya tutarsız verilerin düzeltilmesi veya kaldırılması işlemidir.
# Hatalı verilerin düzeltilmesi
veri.loc[veri['sütun_adi'] < 0, 'sütun_adi'] = 0
# Kategorik değişkenlerin yeniden kodlanması
veri['kategorik_sutun'] = veri['kategorik_sutun'].replace({'Eski_Deger': 'Yeni_Deger'})
5. Veri Özetleme ve Görselleştirme
Veri Özetleme: Veri özetleme, veri setinin temel özelliklerini ve dağılımlarını özetlemek için yapılan işlemdir.
# Belirli bir sütunun özet istatistikleri
print(veri['sütun_adi'].describe())
Veri Görselleştirme: Veri görselleştirme, veri setindeki desenleri ve ilişkileri anlamak için grafiklerin kullanılmasıdır.
import matplotlib.pyplot as plt
# Histogram çizimi
veri['sütun_adi'].hist()
plt.title('Histogram')
plt.xlabel('Değerler')
plt.ylabel('Frekans')
plt.grid(True)
plt.show()
Scatter Plot: İki değişken arasındaki ilişkiyi görselleştirmek için scatter plot kullanabiliriz.
# Scatter plot çizimi
veri.plot(kind='scatter', x='degisken1', y='degisken2')
plt.title('Scatter Plot')
plt.xlabel('Değişken 1')
plt.ylabel('Değişken 2')
plt.grid(True)
plt.show()
Veri Keşfi ve Doğrulamanın Önemi
Veri keşfi ve doğrulama, veri analizinin temel adımlarından biridir. Bu süreçler, veri setinin temizlenmesi, dönüştürülmesi ve analiz edilmesi için gerekli adımları içerir. Veri keşfi ve doğrulama, veri setindeki hataları ve tutarsızlıkları tespit ederek, analiz sonuçlarının doğruluğunu ve güvenilirliğini artırır.
Sonuç
Veri keşfi ve doğrulama, veri setinin temel özelliklerini anlamak ve özetlemek için yapılan önemli adımlardır. Bu süreçler, veri setinin temizlenmesi, dönüştürülmesi ve analiz edilmesi için gereklidir. Veri keşfi ve doğrulama, veri analizi ve istatistiksel analizlerde önemli bir rol oynar ve çeşitli uygulama alanlarında sıkça kullanılır.
Python temellerini atıp, veri analizi ve bilimi için yetkinlik kazanmak istiyorsanız, 1 aylık yoğun Python kampına hemen kayıt olabilirsiniz. ~40 saat canlı ders, ~50 adet kapsamlı proje, ~15 adet quiz ve sayısız kodlama egzersizinden oluşan, Finlandiya eğitim modellerinden esinlenilerek Helsinki'de geliştirilen interaktif ve pratik odaklı eğitim programına hemen göz atın !