Korelasyonun Tanımı
Korelasyon, iki değişken arasındaki ilişkinin yönü ve gücünü ölçen istatistiksel bir kavramdır. Korelasyon katsayısı, bu ilişkinin derecesini sayısal olarak ifade eder ve genellikle -1 ile 1 arasında değişir.
Korelasyon Katsayısı (r):
r=1r = 1r=1: Mükemmel pozitif korelasyon (bir değişken artarken diğeri de artar).
r=−1r = -1r=−1: Mükemmel negatif korelasyon (bir değişken artarken diğeri azalır).
r=0r = 0r=0: Hiçbir korelasyon yok (değişkenler arasında ilişki yoktur).
Korelasyon Türleri
Pearson Korelasyonu: İki sürekli değişken arasındaki doğrusal ilişkiyi ölçer.
Spearman Korelasyonu: İki sıralı değişken arasındaki monoton ilişkiyi ölçer.
Kendall Tau Korelasyonu: İki sıralı değişken arasındaki ilişkileri değerlendirir, özellikle küçük örneklemler için uygundur.
Pearson Korelasyonu
Tanım: Pearson korelasyon katsayısı, iki değişken arasındaki doğrusal ilişkiyi ölçer.
Örnek: Bir veri setindeki iki değişkenin Pearson korelasyon katsayısını hesaplayalım.
import numpy as np
from scipy.stats import pearsonr
# Veri seti
x = [10, 20, 30, 40, 50]
y = [15, 25, 35, 45, 55]
# Pearson korelasyon katsayısı hesaplama
r, _ = pearsonr(x, y)
print(f"Pearson Korelasyon Katsayısı: {r}")
Açıklama: Bu örnekte, iki değişkenin Pearson korelasyon katsayısı hesaplanmıştır. Değişkenler arasında mükemmel bir pozitif doğrusal ilişki olduğu için korelasyon katsayısı 1'dir.
Spearman Korelasyonu
Tanım: Spearman korelasyon katsayısı, iki sıralı değişken arasındaki monoton ilişkiyi ölçer.
Örnek: Bir veri setindeki iki değişkenin Spearman korelasyon katsayısını hesaplayalım.
from scipy.stats import spearmanr
# Veri seti
x = [10, 20, 30, 40, 50]
y = [15, 25, 35, 45, 55]
# Spearman korelasyon katsayısı hesaplama
rho, _ = spearmanr(x, y)
print(f"Spearman Korelasyon Katsayısı: {rho}")
Açıklama: Bu örnekte, iki değişkenin Spearman korelasyon katsayısı hesaplanmıştır. Değişkenler arasında mükemmel bir monoton ilişki olduğu için korelasyon katsayısı 1'dir.
Korelasyonun Tuzağı
Korelasyon, iki değişken arasındaki ilişkinin gücünü ve yönünü ölçmek için yararlı bir araçtır, ancak dikkatli kullanılmalıdır. Korelasyon, nedenselliği (causality) göstermez. Yüksek bir korelasyon, iki değişken arasında doğrudan bir neden-sonuç ilişkisinin olduğunu kanıtlamaz.
Korelasyon ve Nedensellik
Örnek: Bir şehirde dondurma satışları ile güneş yanığı vakaları arasında yüksek bir korelasyon olabilir. Bu, dondurma yemenin güneş yanığına neden olduğu anlamına gelmez. Aslında, her iki değişken de sıcak hava koşullarına bağlıdır. Bu durumda, üçüncü bir değişken (sıcaklık) her iki değişkeni de etkiler ve aralarındaki yüksek korelasyonu açıklar.
Yanıltıcı Korelasyon: Yanıltıcı korelasyon (spurious correlation), iki değişkenin yüksek korelasyon gösterdiği, ancak aralarında nedensel bir ilişki olmadığı durumlardır. Bu tür korelasyonlar, yanlış sonuçlara ve hatalı analizlere yol açabilir.
Örnek: Yukarıdaki dondurma satışları ve güneş yanığı vakaları örneği, yanıltıcı bir korelasyonun klasik bir örneğidir. Korelasyonun yüksek olması, iki değişkenin birbirine neden olduğunu göstermez.
Korelasyonun Grafiksel Gösterimi
Korelasyonu anlamak için scatter plot (dağılım grafiği) kullanabiliriz. Scatter plot, iki değişken arasındaki ilişkiyi görselleştirmek için kullanılır.
Örnek: Bir veri setindeki iki değişkenin scatter plot grafiğini çizelim.
import matplotlib.pyplot as plt
# Veri seti
x = [10, 20, 30, 40, 50]
y = [15, 25, 35, 45, 55]
# Scatter plot
plt.scatter(x, y)
plt.title('Scatter Plot')
plt.xlabel('X Değişkeni')
plt.ylabel('Y Değişkeni')
plt.grid(True)
plt.show()
Açıklama: Bu grafikte, iki değişken arasındaki ilişki scatter plot ile gösterilmiştir. Değişkenler arasında mükemmel bir doğrusal ilişki olduğu için noktalar doğrusal bir düzen gösterir.
Korelasyon Analizinin Adımları
Veri Hazırlama: Analiz edilecek veri setini hazırlayın ve temizleyin.
Korelasyon Katsayısını Hesaplama: Pearson, Spearman veya Kendall korelasyon katsayısını hesaplayın.
Grafiksel Gösterim: Scatter plot kullanarak değişkenler arasındaki ilişkiyi görselleştirin.
Sonuçları Yorumlama: Korelasyon katsayısının değerini ve scatter plot'u yorumlayarak değişkenler arasındaki ilişkiyi değerlendirin.
Yanıltıcı Korelasyonları Tespit Etme: Korelasyonun nedensellik anlamına gelmediğini unutmayın ve yanıltıcı korelasyonları tespit edin.
Sonuç
Korelasyon, iki değişken arasındaki ilişkinin yönü ve gücünü ölçen önemli bir istatistiksel araçtır. Pearson ve Spearman korelasyon katsayıları, değişkenler arasındaki doğrusal ve monoton ilişkileri ölçmek için kullanılır. Ancak, korelasyonun nedenselliği göstermediğini ve yanıltıcı korelasyonlara dikkat edilmesi gerektiğini unutmamak önemlidir. Korelasyon analizi, istatistik ve veri bilimi alanlarında önemli bir rol oynar ve çeşitli uygulama alanlarında sıkça kullanılır.
Python temellerini atıp, veri analizi ve bilimi için yetkinlik kazanmak istiyorsanız, 1 aylık yoğun Python kampına hemen kayıt olabilirsiniz. ~40 saat canlı ders, ~50 adet kapsamlı proje, ~15 adet quiz ve sayısız kodlama egzersizinden oluşan, Finlandiya eğitim modellerinden esinlenilerek Helsinki'de geliştirilen interaktif ve pratik odaklı eğitim programına hemen göz atın !