Penerapan Dizcretization dan Teknik Bagging Untuk Meningkatkan Akurasi Klasifikasi Berbasis Ensemble pada Algoritma C4.5 dalam Mendiagnosa Diabetes

Abstract
Pada bidang kesehatan, data mining dapat dimanfaatkan untuk memprediksi suatu penyakit dari data rekam medis pasien, diantaranya diabetes. Ada beberapa model data mining salah satunya klasifikasi. Di bidang klasifikasi, ada banyak cabang yang berkembang yaitu pohon keputusan (decision tree). Salah satu decision tree yang populer adalah C4.5. Dalam riset ini, data yang digunakan adalah pima indian diabetes dataset yang diambil dari UCI repository of machine learning. Pada dataset ini seluruh atributnya bertipe numerik yang bersifat continuous dan untuk menangani data continuous digunakan discretization. Akurasi sangat penting dalam pengklasifikasian, ensemble method adalah metode yang digunakan untuk meningkatkan akurasi algoritma klasifikasi dengan membangun beberapa classifier dari data training. Dari hasil penelitian, dengan menerapkan discretization dan teknik bagging untuk klasifikasi berbasis ensemble pada algoritma C4.5 dapat meningkatkan akurasi sebesar 6,26%. Dengan akurasi awal 68,61%, setelah diterapkan discretization dan teknik bagging menjadi 74,87%.