Abstract
Veri boyutunun artmasıyla orantılı olarak değişkenler arası bağlantıların analizi daha karmaşık bir hale gelmiştir. Yapısal olmayan veri kümelerinde, yapısal forma dönüştürme ön işlemleriyle birlikte, analiz süreçleri daha karmaşık hale gelecektir. Konuşma dilinin doğası gereği, sıradan bir doküman dahi yüzlerce farklı terim içermektedir. Bu durum veri çıkarımı ve verinin yapısal forma dönüştürme süreçlerini oldukça uzatmaktadır. Bu çalışmada kullanılan veri, E-ticaret olarak adlandırılan, çevrimiçi alışveriş işlemleri sırasında ve sonrasında, gerçek kişiler tarafından yazılan yorumlardan oluşmaktadır. Alternatif bir alışveriş yöntemi olan e-ticaret platformlarında, tüketiciler istedikleri ürüne/hizmete ait birçok farklı seçeneği eşzamanlı inceleyebilmektedir. Tüketiciler bu sayede almış oldukları ürünle/hizmetle alakalı tecrübelerini/düşüncelerini kolayca ifade edebilirken, diğer tüketicilerin yorumlarına ulaşma fırsatını da bulabilmektedir. Bu durum metin veri açısından, sürekli büyüyen bir kaynak oluşturmaktadır. Veri boyutunun sürekli olarak artması, veri analizindeki zorluğu da aynı oranda arttırmaktadır. Boyut problemini aşmak için metin madenciliği (MM) çalışmalarında oldukça popüler olan veri boyutu indirgeme yöntemlerinden biri, Tekil Değer Ayrışımı (TDA) kullanılmaktadır. Bu çalışmada, sınıflandırmaya dayalı polarite yöntemi, kompozit (bileşik) bir değişken oluşturma sürecinde kullanılmaktadır. Oluşturulan kompozit değişken, veri içinde yer alan tüm kelime ve kelime gruplarının matematiksel olarak bir araya getirilmesiyle oluşmaktadır. Dolayısıyla ilgili değişken bir veri boyutu indirgeme fonksiyonu da sağlamaktadır. TDA ve kompozit değişkenin, veri boyutu indirgeme performansları kıyaslanmaktadır. Modelleme yöntemi olarak, Genelleştirilmiş Lineer Model (GLM) kullanılmaktadır. Modellerin performansları 5-katmanlı-çapraz-doğrulama yöntemiyle değerlendirilmektedir. TDA skorları ve kompozit değişken kullanılarak GLM modelleri oluşturulmaktadır. Sonuçlar, 5-katmanın tamamında kompozit değişkenin TDA skorlarından ortalama %6 civarında daha iyi performans sağladığını göstermektedir. Bu yaklaşım, MM’nin veri analizi sürecini kolaylaştırmada ve doğruluk performansını arttırmada önemli bir katkı sağlayacaktır.

This publication has 10 references indexed in Scilit: