📊 Kategorik Veri Nedir?
Kategorik veri, nesneleri veya bireyleri belirli gruplara veya kategorilere ayırmak için kullanılan veri türüdür. Bu veriler sayısal değerler yerine, isimler, etiketler veya kategorilerle ifade edilir. Kategorik veriler, istatistiksel analizlerde ve makine öğrenimi uygulamalarında önemli bir rol oynar.
🍎 Kategorik Veri Türleri
Kategorik veriler temelde iki ana türe ayrılır:
- 🍎 Nominal Veri: Kategoriler arasında herhangi bir sıralama veya hiyerarşi bulunmayan verilerdir. Örneğin, göz rengi (mavi, kahverengi, yeşil), kan grubu (A, B, AB, 0) veya şehir isimleri (İstanbul, Ankara, İzmir).
- 🍎 Ordinal Veri: Kategoriler arasında belirli bir sıralama veya hiyerarşi bulunan verilerdir. Örneğin, eğitim seviyesi (ilkokul, ortaokul, lise, üniversite), müşteri memnuniyeti (çok memnun, memnun, nötr, memnun değil, çok memnun değil) veya performans değerlendirmesi (düşük, orta, yüksek).
🧮 Kategorik Verinin Sayısallaştırılması
Makine öğrenimi algoritmaları genellikle sayısal verilerle çalıştığından, kategorik verilerin sayısal formata dönüştürülmesi gerekir. Bu işlem için çeşitli yöntemler kullanılır:
- 🍎 One-Hot Encoding: Her bir kategori için ayrı bir sütun oluşturulur ve ilgili kategoriye ait satırlara 1, diğerlerine 0 değeri atanır. Bu yöntem, nominal veriler için uygundur.
- 🍎 Label Encoding: Her bir kategoriye benzersiz bir sayısal değer atanır. Bu yöntem, ordinal veriler için uygundur, çünkü kategoriler arasındaki sıralama korunabilir. Ancak, nominal veriler için kullanıldığında yanlış bir sıralama algısı yaratabilir.
📉 Kategorik Veri Analizi
Kategorik verilerin analizi için çeşitli istatistiksel yöntemler kullanılır:
- 🍎 Frekans Tabloları: Her bir kategorinin veri setinde kaç kez tekrarlandığını gösteren tablolardır.
- 🍎 Çapraz Tablolar (Contingency Tables): İki veya daha fazla kategorik değişken arasındaki ilişkiyi incelemek için kullanılır.
- 🍎 Ki-Kare Testi: İki kategorik değişken arasında istatistiksel olarak anlamlı bir ilişki olup olmadığını test etmek için kullanılır.
💻 Kategorik Veri ve Makine Öğrenimi
Kategorik veriler, makine öğrenimi modellerinde önemli bir rol oynar. Özellikle sınıflandırma problemlerinde, hedef değişken genellikle kategoriktir. Kategorik verilerin doğru bir şekilde işlenmesi ve analiz edilmesi, modelin performansını önemli ölçüde etkileyebilir.
Örneğin, bir e-ticaret sitesindeki müşteri davranışlarını analiz ederek, müşterilerin hangi ürünleri satın alma olasılığının daha yüksek olduğunu tahmin etmek için kategorik veriler (müşteri demografisi, ürün kategorileri, geçmiş satın alma davranışları) kullanılabilir.