📊 Kategorik Veri: Öğretmen Notu
Kategorik veri, sayısal olmayan ve belirli kategorilere ayrılabilen verilerdir. Bu veri türü, istatistiksel analizlerde ve makine öğrenimi uygulamalarında sıklıkla karşımıza çıkar. Kategorik veriyi anlamak ve doğru bir şekilde işlemek, veri analizinin önemli bir parçasıdır.
📌 Kategorik Veri Türleri
Kategorik veriler temelde iki ana türe ayrılır:
- 🍎 Nominal Veri: Kategoriler arasında herhangi bir sıralama veya hiyerarşi bulunmayan verilerdir. Örneğin, göz rengi (mavi, kahverengi, yeşil) veya medeni durum (bekar, evli, boşanmış) nominal verilere örnektir.
- ✏️ Ordinal Veri: Kategoriler arasında anlamlı bir sıralama veya hiyerarşi bulunan verilerdir. Örneğin, eğitim seviyesi (ilkokul, ortaokul, lise, üniversite) veya memnuniyet düzeyi (çok memnun, memnun, nötr, memnun değil, hiç memnun değil) ordinal verilere örnektir.
🧮 Kategorik Verinin Analizi
Kategorik verilerin analizi, sayısal verilere göre farklı yöntemler gerektirir. İşte bazı temel analiz yöntemleri:
- 📈 Frekans Tabloları: Her bir kategorinin veri setinde kaç kez tekrarlandığını gösteren tablolardır. Kategorik verinin dağılımını anlamak için kullanılır.
- 📊 Çubuk Grafikler ve Pasta Grafikler: Kategorilerin frekanslarını görsel olarak temsil etmek için kullanılır. Çubuk grafikler kategorileri karşılaştırmak için, pasta grafikler ise her kategorinin toplam içindeki payını göstermek için idealdir.
- 🧪 Ki-Kare Testi: İki kategorik değişken arasındaki ilişkiyi test etmek için kullanılır. Örneğin, cinsiyet ile sigara içme alışkanlığı arasında bir ilişki olup olmadığını belirlemek için ki-kare testi kullanılabilir.
💻 Kategorik Verinin Kodlanması (Encoding)
Makine öğrenimi algoritmaları genellikle sayısal verilerle çalışır. Bu nedenle, kategorik verilerin sayısal verilere dönüştürülmesi (kodlanması) gerekir. İşte bazı yaygın kodlama yöntemleri:
- 🔥 One-Hot Encoding: Her bir kategori için ayrı bir sütun oluşturulur ve ilgili kategoriye ait satırlara 1, diğerlerine 0 değeri atanır. Nominal veriler için uygundur.
- 🔢 Label Encoding: Her bir kategoriye benzersiz bir sayısal değer atanır. Ordinal veriler için sıralama bilgisini korumak amacıyla kullanılabilir.
- 🎯 Ordinal Encoding: Label Encoding'e benzer, ancak kategorilere atanan sayılar, kategorilerin sıralamasını yansıtacak şekilde belirlenir.
💡 Önemli Notlar
- ✅ Kategorik veriyi analiz ederken, veri türüne uygun analiz yöntemlerini kullanmaya özen gösterin.
- ✅ Kodlama yöntemini seçerken, verinin türünü ve algoritmanın gereksinimlerini dikkate alın.
- ✅ Kategorik verinin doğru bir şekilde işlenmesi, anlamlı ve güvenilir sonuçlar elde etmek için kritik öneme sahiptir.