Use of Classification Algorithms in Diagnosis of Hypothyroidism

Abstract
Tr en Hastalık teşhisi, tıp alanında karşılaşılan en önemli problemlerden biridir. Belirli bir hastalığın farklı türlerinin ve diğer hastalıklarla benzer semptomlarının olması hastalığın teşhisini zorlaştırmaktadır. Tiroit hastalığı çeşitlerinden biri olan hipotiroidi de bu sebeplerle teşhisi geciken ve hastaların yaşam kalitesini düşüren bir hastalıktır. Bu çalışmanın amacı, tanı sürecinde hastalara sorulan soru ve uygulanan test sonuçlarını kullanarak hipotiroidi hastalığının doğru teşhis oranını arttıracak veri madenciliği temelli bir sistem önermektir. Diğer amaç ise dolaylı olarak teşhis için kullanılan girişimsel testlerden oluşabilecek komplikasyonları azaltmaktır. Bu amaçlar doğrultusunda UCI makine öğrenmesi veri tabanında yer alan ve 151 tanesi hipotiroidi geri kalanı hipotiroidi olmayan toplam 3163 örnekten oluşan veri seti kullanılarak yeni örneklerin hipotiroidi olup olmadığı tahmin edilmiştir. Veri setindeki dengesiz dağılımı ortadan kaldırmak için veri setine farklı örnekleme teknikleri uygulanarak Lojistik Regresyon, K En Yakın Komşu ve Destek Vektör Makinesi sınıflandırıcıları ile hipotiroidi hastalığını teşhis edecek modeller oluşturulmuştur. Bu yönüyle, çalışma örnekleme yöntemlerinin hipotiroidi hastalığı teşhisi üzerindeki etkisini göstermiştir. Geliştirilen modeller içinde en yüksek performansı, aşırı örnekleme teknikleri uygulanan veri seti ile eğitilen Lojistik Regresyon sınıflandırıcısı vermiştir. Bu sınıflandırıcı ile elde edilen en iyi sonuçlar; doğruluk oranı için %97.8, F-Skor değeri için %82.26, eğri altında kalan alan için %93.2 ve Matthews korelasyon katsayısı için de %81.8’dir. Disease diagnosis is one of the most important problems encountered in the medical field. Different types of a specific disease and similar symptoms with other diseases make the disease harder to diagnose. For these reasons Hypothyroidism, which is one of the types of thyroid disease, is a disease that decreases patient's quality of life due to the delay in its diagnosis. The purpose of this article is to propose a data mining-based system that will increase the correct diagnosis of hypothyroidism rate by using the question asked to the patients during the diagnosis process, and the test results applied. The other aim is to reduce the complications that may arise from interventional tests used indirectly for diagnosis. For these purposes, it was estimated whether new samples were hypothyroidism by using a data set consisting of 3163 samples in the UCI machine learning database, 151 of which were hypothyroid and the rest without hypothyroidism. In order to deal with the imbalanced class distribution in the data, different sampling techniques were applied to the data set and models to diagnose hypothyroidism with Logistic Regression, K Nearest Neighbor, and Support Vector Machine classifiers were created. With this aspect, the study demonstrated the effect of sampling methods on the diagnosis of hypothyroid disease. Among the developed models, the Logistics Regression classifier, which was trained with the data set applied to the oversampling techniques, gave the highest performance. The best results obtained with this classifier are 97.8% for accuracy rate, 82.26% for F-Score value, 93.2% for area under the curve and 81.8% for Matthews correlation coefficient.