top of page

Üyelik Paketlerinde 25% İndirim İçin Kodun : "welcome"

Veri Doğrulama ve Temizleme (Data Validation and Cleaning)



Hands-on Mentor Kapsamlı Blog İçeriği
Hands-on Mentor Tutorials





Veri Doğrulamanın Tanımı

Veri doğrulama, veri setinin doğruluğunu ve bütünlüğünü kontrol etme sürecidir. Bu süreç, veri setindeki olası hataları, tutarsızlıkları ve eksiklikleri tespit etmeyi amaçlar. Veri doğrulama, veri analizinin doğruluğunu ve güvenilirliğini artırır.


Veri Doğrulama ve Temizleme Adımları


  1. Veri Türü Doğrulama

  2. Veri Aralığı Doğrulama

  3. Kategori Doğrulama

  4. Eksik Verilerin Doğrulama ve Temizlenmesi

  5. Tutarsızlıkların Tespiti ve Düzeltilmesi


1. Veri Türü Doğrulama

Veri setindeki sütunların doğru veri türünde olup olmadığını kontrol etmek önemlidir. Yanlış veri türleri analizlerin doğruluğunu olumsuz etkileyebilir.


Örnek:


import pandas as pd

# Veri setini yükleme
df = pd.read_csv('customer_data.csv')

# Veri türlerini inceleme
print(df.dtypes)

# Veri türlerini doğrulama ve düzeltme
df['Age'] = pd.to_numeric(df['Age'], errors='coerce')
df['AnnualIncome'] = pd.to_numeric(df['AnnualIncome'], errors='coerce')
df['Date'] = pd.to_datetime(df['Date'], errors='coerce')

# Doğrulama sonrası veri türlerini kontrol etme
print(df.dtypes)


2. Veri Aralığı Doğrulama

Veri setindeki sayısal değerlerin mantıklı aralıklarda olup olmadığını kontrol etmek önemlidir. Örneğin, yaş değerleri negatif olmamalıdır.


Örnek:


# Yaş sütunundaki mantıksız değerleri tespit etme
invalid_ages = df[(df['Age'] < 0) | (df['Age'] > 120)]
print(invalid_ages)

# Mantıksız yaş değerlerini düzeltme
df.loc[df['Age'] < 0, 'Age'] = df['Age'].mean()
df.loc[df['Age'] > 120, 'Age'] = df['Age'].mean()


3. Kategori Doğrulama

Kategorik değişkenlerin geçerli kategorilere sahip olup olmadığını kontrol etmek önemlidir. Geçersiz kategoriler analizlerin doğruluğunu olumsuz etkileyebilir.


Örnek:


# Cinsiyet sütunundaki geçersiz değerleri tespit etme
invalid_genders = df[~df['Gender'].isin(['Male', 'Female'])]
print(invalid_genders)

# Geçersiz cinsiyet değerlerini düzeltme
df['Gender'] = df['Gender'].replace({'M': 'Male', 'F': 'Female'})


4. Eksik Verilerin Doğrulama ve Temizlenmesi

Eksik veriler, analizlerin doğruluğunu ve güvenilirliğini olumsuz etkileyebilir. Bu nedenle, eksik verilerin tespit edilmesi ve uygun yöntemlerle işlenmesi önemlidir.


Örnek:


# Eksik verilerin tespiti
missing_values = df.isnull().sum()
print(missing_values)

# Eksik verilerin doldurulması (örneğin, yaş sütununu ortalama ile doldurma)
df['Age'].fillna(df['Age'].mean(), inplace=True)


5. Tutarsızlıkların Tespiti ve Düzeltilmesi

Veri setinde mantıksal tutarsızlıklar olabilir. Bu tutarsızlıkların tespit edilmesi ve düzeltilmesi önemlidir.


Örnek:


# Yaş ve yıllık gelir arasında mantıksal tutarsızlıkları tespit etme
invalid_entries = df[(df['Age'] < 18) & (df['AnnualIncome'] > 50000)]
print(invalid_entries)

# Mantıksal tutarsızlıkları düzeltme
df.loc[(df['Age'] < 18) & (df['AnnualIncome'] > 50000), 'AnnualIncome'] = df['AnnualIncome'].median()


Sonuç

Veri doğrulama ve temizleme, veri setinin doğruluğunu ve bütünlüğünü sağlamak için kritik adımlardır. Bu süreçler, veri setindeki olası hataları, tutarsızlıkları ve eksiklikleri tespit ederek düzeltmeyi amaçlar. Veri türü doğrulama, veri aralığı doğrulama, kategori doğrulama, eksik verilerin doğrulama ve temizlenmesi, ve tutarsızlıkların tespiti ve düzeltilmesi gibi adımları içerir. Bu adımlar, veri analizinin doğruluğunu ve güvenilirliğini artırır.


Bu içerik, veri doğrulama ve temizlemenin temel kavramlarını ve yöntemlerini detaylandırır. Veri doğrulama ve temizlemenin yanı sıra, pratik örneklerle bu kavramların nasıl kullanılabileceğini gösterir. Bir sonraki bölümde, "Veri Özetleme ve Görselleştirme" konusunu ele alarak, veri setlerinin özetlenmesi ve görselleştirilmesi için temel yöntemleri inceleyeceğiz.


 

Python temellerini atıp, veri analizi ve bilimi için yetkinlik kazanmak istiyorsanız, 1 aylık yoğun Python kampına hemen kayıt olabilirsiniz. ~40 saat canlı ders, ~50 adet kapsamlı proje, ~15 adet quiz ve sayısız kodlama egzersizinden oluşan, Finlandiya eğitim modellerinden esinlenilerek Helsinki'de geliştirilen interaktif ve pratik odaklı eğitim programına hemen göz atın !




コメント


コメント機能がオフになっています。
bottom of page