Ekstraksi Informasi Berbasis Rule untuk Proceeding, Jurnal, dan Technical Report dengan Memanfaatkan Attribut Font dan Paragraf

Abstract
Digital library merupakan solusi yang baik untuk dunia edukasi. Hal ini disebabkan karena buku yang sudah berevolusi menjadi digital. Awalnya dalam bentuk fisik sekarang sudah dalam bentuk digital dengan ekstensi PDF. Namun untuk membangun sebuah digital library merupakan system yang besar dan kompleks, sehingga diperlukan bagian yang banyak. Penelitian ini mengambil satu bagian dari pengembangan system digital library, yaitu pada bagian preprocessing atau persiapan sumber data digital library. Penyedian sumber data digital library sangat luas dan banyak. Fokus dari penelitian ini adalah penyedian data dimana data tersebut adalah jurnal, prosiding dan paper. Dokumen tersebut dipilih karena dinilai memiliki manfaat yang besar untuk edukasi karena peneliti mendokumentasikan hasil penelitian pada dokumen tersebut. Dalam 1 paper tentunya ada bagian yang menjadi kunci yang menggambarkan intisari dari penelitian tersebut. Pada penelitian ini diambil informasi Judul, Abstract, Keyword dan penulis. Informasi tersebut dipercaya mampu menggambarkan intisari dari suatu paper. Proses dilakukan dengan terbagi menjadi 3 bagian besar yaitu konversi file mentah dengan ekstensi PDF menjadi file JSON, Proses pengambilan fitur, Proses ekstraksi informasi. Ekstraksi informasi pada penelitian ini menggunakan kumpulan rule yang diimplementasikan pada software. Rule di dapat dari hasil pengamatan selama penelitian. Hasil dari penelitian dilakukan perhitungan dengan memberikan bobot dimana hal yang terberat memiliki pengaruh yang lebih besar. Ketelitian yang dicapai adalah 81.32% dimana dari hipotesa awal pada ketelitain 80%. Namun masih banyak pengembangan yang bisa dilakukan agar lebih baik lagi pada penelitian selanjutnya