top of page

Veri Keşfi ve Doğrulama: Müşteri Bilgileri Veri Seti



Hands-on Mentor Kapsamlı Blog İçeriği
Hands-on Mentor Tutorials



1. Veri Setini Anlama

Öncelikle oluşturduğumuz veri setini yükleyelim ve temel özelliklerini inceleyelim.


import pandas as pd

# Veri setini yükleme
df = pd.read_csv('customer_data.csv')

# İlk 5 satırı görüntüleme
print(df.head())

2. İlk Keşif ve Fonksiyonlarla İnceleme

Veri setindeki temel istatistikleri ve veri türlerini inceleyelim.


# Veri setinin temel istatistikleri
print(df.describe())

# Veri türlerini inceleme
print(df.dtypes)

3. Kategorik Değerlerin Sayılması

Kategorik değişkenlerin dağılımını ve frekansını inceleyelim.


# Cinsiyetlerin frekans dağılımı
print(df['Gender'].value_counts())

# Bölgelerin frekans dağılımı
print(df['Region'].value_counts())

# Üyelik durumunun frekans dağılımı
print(df['Membership'].value_counts())

4. Veri Doğrulama ve Temizleme

Veri setindeki eksik verileri ve hataları tespit edelim ve temizleyelim.

Eksik Verilerin Tespiti:


# Eksik verilerin tespiti
print(df.isnull().sum())

Hatalı Verilerin Düzeltilmesi:


# Hatalı verilerin düzeltilmesi (örneğin yaş sütununda negatif değerlerin kontrolü)
df.loc[df['Age'] < 0, 'Age'] = df['Age'].mean()

5. Veri Özetleme ve Görselleştirme

Veri setindeki temel özellikleri ve dağılımları özetleyelim ve görselleştirelim.

Veri Özetleme:


# Belirli bir sütunun özet istatistikleri
print(df['AnnualIncome'].describe())


Veri Görselleştirme:


Histogram:


import matplotlib.pyplot as plt

# Histogram çizimi (Yıllık Gelir)
df['AnnualIncome'].hist()
plt.title('Yıllık Gelir Histogramı')
plt.xlabel('Yıllık Gelir')
plt.ylabel('Frekans')
plt.grid(True)
plt.show()

Scatter Plot:


# Scatter plot çizimi (Yıllık Gelir ve Harcama Puanı)
df.plot(kind='scatter', x='AnnualIncome', y='SpendingScore')
plt.title('Yıllık Gelir ve Harcama Puanı Scatter Plot')
plt.xlabel('Yıllık Gelir')
plt.ylabel('Harcama Puanı')
plt.grid(True)
plt.show()


6. Korelasyon Analizi

Değişkenler arasındaki ilişkileri inceleyelim.


Korelasyon Matrisi:


# Korelasyon matrisi hesaplama
corr_matrix = df.corr()
print(corr_matrix)

Heatmap:


import seaborn as sns

# Korelasyon matrisi heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Korelasyon Matrisi Heatmap')
plt.show()


Sonuç

Bu adımlarda müşteri bilgileri veri seti üzerinde veri keşfi ve doğrulama işlemlerini gerçekleştirdik. Veri setinin temel özelliklerini inceledik, kategorik ve sayısal değişkenlerin dağılımlarını analiz ettik, eksik ve hatalı verileri tespit edip düzelttik ve değişkenler arasındaki ilişkileri görselleştirdik.


Bu veri seti üzerinde daha ileri analizler yapabilir, makine öğrenimi modelleri oluşturabilir ve daha ayrıntılı istatistiksel analizler gerçekleştirebilirsiniz. Bir sonraki adımda, eksik verilerin işlenmesi konusunu ele alarak, eksik verilerin tespiti ve işlenmesi için temel yöntemleri inceleyeceğiz.


 

Python temellerini atıp, veri analizi ve bilimi için yetkinlik kazanmak istiyorsanız, 1 aylık yoğun Python kampına hemen kayıt olabilirsiniz. ~40 saat canlı ders, ~50 adet kapsamlı proje, ~15 adet quiz ve sayısız kodlama egzersizinden oluşan, Finlandiya eğitim modellerinden esinlenilerek Helsinki'de geliştirilen interaktif ve pratik odaklı eğitim programına hemen göz atın !




bottom of page