Veri Doğrulamanın Tanımı
Veri doğrulama, veri setinin doğruluğunu ve bütünlüğünü kontrol etme sürecidir. Bu süreç, veri setindeki olası hataları, tutarsızlıkları ve eksiklikleri tespit etmeyi amaçlar. Veri doğrulama, veri analizinin doğruluğunu ve güvenilirliğini artırır.
Veri Doğrulama ve Temizleme Adımları
Veri Türü Doğrulama
Veri Aralığı Doğrulama
Kategori Doğrulama
Eksik Verilerin Doğrulama ve Temizlenmesi
Tutarsızlıkların Tespiti ve Düzeltilmesi
1. Veri Türü Doğrulama
Veri setindeki sütunların doğru veri türünde olup olmadığını kontrol etmek önemlidir. Yanlış veri türleri analizlerin doğruluğunu olumsuz etkileyebilir.
Örnek:
import pandas as pd
# Veri setini yükleme
df = pd.read_csv('customer_data.csv')
# Veri türlerini inceleme
print(df.dtypes)
# Veri türlerini doğrulama ve düzeltme
df['Age'] = pd.to_numeric(df['Age'], errors='coerce')
df['AnnualIncome'] = pd.to_numeric(df['AnnualIncome'], errors='coerce')
df['Date'] = pd.to_datetime(df['Date'], errors='coerce')
# Doğrulama sonrası veri türlerini kontrol etme
print(df.dtypes)
2. Veri Aralığı Doğrulama
Veri setindeki sayısal değerlerin mantıklı aralıklarda olup olmadığını kontrol etmek önemlidir. Örneğin, yaş değerleri negatif olmamalıdır.
Örnek:
# Yaş sütunundaki mantıksız değerleri tespit etme
invalid_ages = df[(df['Age'] < 0) | (df['Age'] > 120)]
print(invalid_ages)
# Mantıksız yaş değerlerini düzeltme
df.loc[df['Age'] < 0, 'Age'] = df['Age'].mean()
df.loc[df['Age'] > 120, 'Age'] = df['Age'].mean()
3. Kategori Doğrulama
Kategorik değişkenlerin geçerli kategorilere sahip olup olmadığını kontrol etmek önemlidir. Geçersiz kategoriler analizlerin doğruluğunu olumsuz etkileyebilir.
Örnek:
# Cinsiyet sütunundaki geçersiz değerleri tespit etme
invalid_genders = df[~df['Gender'].isin(['Male', 'Female'])]
print(invalid_genders)
# Geçersiz cinsiyet değerlerini düzeltme
df['Gender'] = df['Gender'].replace({'M': 'Male', 'F': 'Female'})
4. Eksik Verilerin Doğrulama ve Temizlenmesi
Eksik veriler, analizlerin doğruluğunu ve güvenilirliğini olumsuz etkileyebilir. Bu nedenle, eksik verilerin tespit edilmesi ve uygun yöntemlerle işlenmesi önemlidir.
Örnek:
# Eksik verilerin tespiti
missing_values = df.isnull().sum()
print(missing_values)
# Eksik verilerin doldurulması (örneğin, yaş sütununu ortalama ile doldurma)
df['Age'].fillna(df['Age'].mean(), inplace=True)
5. Tutarsızlıkların Tespiti ve Düzeltilmesi
Veri setinde mantıksal tutarsızlıklar olabilir. Bu tutarsızlıkların tespit edilmesi ve düzeltilmesi önemlidir.
Örnek:
# Yaş ve yıllık gelir arasında mantıksal tutarsızlıkları tespit etme
invalid_entries = df[(df['Age'] < 18) & (df['AnnualIncome'] > 50000)]
print(invalid_entries)
# Mantıksal tutarsızlıkları düzeltme
df.loc[(df['Age'] < 18) & (df['AnnualIncome'] > 50000), 'AnnualIncome'] = df['AnnualIncome'].median()
Sonuç
Veri doğrulama ve temizleme, veri setinin doğruluğunu ve bütünlüğünü sağlamak için kritik adımlardır. Bu süreçler, veri setindeki olası hataları, tutarsızlıkları ve eksiklikleri tespit ederek düzeltmeyi amaçlar. Veri türü doğrulama, veri aralığı doğrulama, kategori doğrulama, eksik verilerin doğrulama ve temizlenmesi, ve tutarsızlıkların tespiti ve düzeltilmesi gibi adımları içerir. Bu adımlar, veri analizinin doğruluğunu ve güvenilirliğini artırır.
Bu içerik, veri doğrulama ve temizlemenin temel kavramlarını ve yöntemlerini detaylandırır. Veri doğrulama ve temizlemenin yanı sıra, pratik örneklerle bu kavramların nasıl kullanılabileceğini gösterir. Bir sonraki bölümde, "Veri Özetleme ve Görselleştirme" konusunu ele alarak, veri setlerinin özetlenmesi ve görselleştirilmesi için temel yöntemleri inceleyeceğiz.
Python temellerini atıp, veri analizi ve bilimi için yetkinlik kazanmak istiyorsanız, 1 aylık yoğun Python kampına hemen kayıt olabilirsiniz. ~40 saat canlı ders, ~50 adet kapsamlı proje, ~15 adet quiz ve sayısız kodlama egzersizinden oluşan, Finlandiya eğitim modellerinden esinlenilerek Helsinki'de geliştirilen interaktif ve pratik odaklı eğitim programına hemen göz atın !