Text Mining and Data Dimesion Reduction Approach on Consumer Comments

Abstract

Veri boyutunun artmasıyla orantılı olarak değişkenler arası bağlantıların analizi daha karmaşık bir hale gelmiştir. Yapısal olmayan veri kümelerinde, yapısal forma dönüştürme ön işlemleriyle birlikte, analiz süreçleri daha karmaşık hale gelecektir. Konuşma dilinin doğası gereği, sıradan bir doküman dahi yüzlerce farklı terim içermektedir. Bu durum veri çıkarımı ve verinin yapısal forma dönüştürme süreçlerini oldukça uzatmaktadır. Bu çalışmada kullanılan veri, E-ticaret olarak adlandırılan, çevrimiçi alışveriş işlemleri sırasında ve sonrasında, gerçek kişiler tarafından yazılan yorumlardan oluşmaktadır. Alternatif bir alışveriş yöntemi olan e-ticaret platformlarında, tüketiciler istedikleri ürüne/hizmete ait birçok farklı seçeneği eşzamanlı inceleyebilmektedir. Tüketiciler bu sayede almış oldukları ürünle/hizmetle alakalı tecrübelerini/düşüncelerini kolayca ifade edebilirken, diğer tüketicilerin yorumlarına ulaşma fırsatını da bulabilmektedir. Bu durum metin veri açısından, sürekli büyüyen bir kaynak oluşturmaktadır. Veri boyutunun sürekli olarak artması, veri analizindeki zorluğu da aynı oranda arttırmaktadır. Boyut problemini aşmak için metin madenciliği (MM) çalışmalarında oldukça popüler olan veri boyutu indirgeme yöntemlerinden biri, Tekil Değer Ayrışımı (TDA) kullanılmaktadır. Bu çalışmada, sınıflandırmaya dayalı polarite yöntemi, kompozit (bileşik) bir değişken oluşturma sürecinde kullanılmaktadır. Oluşturulan kompozit değişken, veri içinde yer alan tüm kelime ve kelime gruplarının matematiksel olarak bir araya getirilmesiyle oluşmaktadır. Dolayısıyla ilgili değişken bir veri boyutu indirgeme fonksiyonu da sağlamaktadır. TDA ve kompozit değişkenin, veri boyutu indirgeme performansları kıyaslanmaktadır. Modelleme yöntemi olarak, Genelleştirilmiş Lineer Model (GLM) kullanılmaktadır. Modellerin performansları 5-katmanlı-çapraz-doğrulama yöntemiyle değerlendirilmektedir. TDA skorları ve kompozit değişken kullanılarak GLM modelleri oluşturulmaktadır. Sonuçlar, 5-katmanın tamamında kompozit değişkenin TDA skorlarından ortalama %6 civarında daha iyi performans sağladığını göstermektedir. Bu yaklaşım, MM’nin veri analizi sürecini kolaylaştırmada ve doğruluk performansını arttırmada önemli bir katkı sağlayacaktır.

Keywords

This publication has 10 references indexed in Scilit:

Towards Accurate Deceptive Opinions Detection Based on Word Order-Preserving CNN
Mathematical Problems in Engineering, 2018
Customer Sentiment in Web-Based Service Interactions
Published by Association for Computing Machinery (ACM) ,2018
Customer Satisfaction Measurement using Sentiment Analysis
International Journal of Advanced Computer Science and Applications, 2018
A survey on text classification techniques for sentiment polarity detection
Published by Institute of Electrical and Electronics Engineers (IEEE) ,2017
Identifying Polarity in Different Text Types
Folklore: Electronic Journal of Folklore, 2016
A Survey Of Dimensionality Reduction And Classification Methods
International Journal of Computer Science & Engineering Survey, 2012
Case Study of Online Retailing Fast Fashion Industry
International Journal of e-Education, e-Business, e-Management and e-Learning, 2011
Electronic Commerce
Published by IGI Global ,2008
Data quality assessment
Communications of the ACM, 2002
Computing Sentiment Polarity of Texts at Document and Aspect Levels
ECTI Transactions on Computer and Information Technology (ECTI-CIT), 1970

Cited by 1 article