Penggunaan N-mers Frequency pada Analisis Barisan DNA

Abstract
Salah satu metode untuk menganalisis barisan DNA adalah menggunaan N-mers Frequency. N-mers Frequency termasuk metode data mining pada barisan DNA, dimana barisan DNA yang merupakan data string “ACGT” akan diubah menjadi data numerik. N-mers Frequency pada tulisan ini menggunakan N = 3. Hal ini disebabkan karena pada proses sintesis protein, tRNA akan membawa tiga basa nekleotida (anti kodon) yang akan dipasangkan dengan tiga basa nekleotida (kodon) pada pita mRNA. Dalam hal ini mRNA dibentuk dari duplikasi barisan DNA. Studi ini dilakukan untuk mengetahui akurasi dari penggunaan N-mers Frequency. Untuk menghitung Akurasi penggunaan N-mers Frequency, dilakukan tahapan seperti berikut: (1) pengumpulan data barisan DNA, (2) N-mers Frequency, (3) matriks jarak, (4) pengelompokan menggunakan algoritma K-means++, PAM, AGNES, dan DIANA, (5) menghitung akurasi, dan (6) kesimpulan. Akurasi dari Penggunaan N-mers Frequency pada penelitian ini adalah 100%, dengan menggunakan data 100 barisan DNA yang telah diketahui jenisnya, yaitu: virus HPV, virus Ebola, virus Marburg, dan virus Zika.