Analisis Perbandingan Metode K Nearest Neighbor Dan Gaussian Naive Bayes Pada Klasifikasi Jurusan Siswa (Studi Kasus pada Siswa SMA Muhammadiyah 3 Jember)

Herdian Cahyaningrum, Deni Arifianto, Ginanjar Abdurrahman

Abstract


Penelitian ini akan mengupas tentang klasifikasi penjurusan siswa menggunakan metode Gaussian Naive Bayes dan K Nearest Neighbor. Penelitian ini menggunakan data siswa SMA Muhammadiyah 3 dengan fitur yang digunakan dalam penjurusan siswa adalah rekapitulasi nilai ujian nasional bahasa Indonesia, nilai ujian nasional bahasa inggris, nilai ujian nasional IPA, nilai ujian nasional matematika, ulangan harian IPA, Matematika, IPS, Bahasa Indonesia, Bahasa inggris, nilai tes verbal linguistik, logis matematis, spasial, kinestik, musikal, interpersonal, intrapersonal dan natural. Total data yang dihitung berjumlah 320 data. Preprocessing data menggunakan metode Median Subtitution dan metode Min-Max Normalization. Untuk mengatasi ketidakseimbangan data pada penelitian ini menggunakan metode SMOTE (Synthetic Minority Oversampling Technique). Dari data sintetis hasil SMOTE diperoleh data total 486 data. Skenario uji dalam penelitian ini menggunakan metode K Fold Cross Validation dengan nilai k Fold = 2, 4, 5, 8 dan 10. Dalam pengukuran jarak, vektor yang digunakan dalam implementasi K Nearest Neighbor menggunakan Euclidean Distance. Hasil akurasi tertinggi metode Gaussian Naive Bayes adalah 83,33% sedangkan akurasi tertinggi yang diperoleh metode K Nearest Neighbor adalah 83,61% dengan nilai k neighbor = 7.

 

Kata Kunci: Gaussian Naive Bayes; Klasifikasi; K-NN; SMOTE

Full Text:

PDF

References


Turban, E., Rainer, R. K., & Potter, R. E. (2005). Introduction to information technology (Vol. 2, pp. 51-62). John Wiley & Sons.

Jason Brownlee. (2016). Master Machine Learning Algorithms : Discover How They Work and Implement Them From Scratch.

Kusrini, E. T. L. (2009). Algoritma Data Mining. Yogyakarta: Andi Offset.

Bramer, M. (2007). Measuring the Performance of a Classifier. Principles of Data Mining.

Eric R. Buhi, MPH, PhD, Patricia Goodson, PhD, Torsten B. Neilands, P. (2008). Out of Sight, Not Out of Mind: Strategies for Handling Missing Data. Handling Missing Data, 1(Handl. Missing Data), 83–92.

Virmani, D., Taneja, S., & Malhotra, G. (2015). Normalization based K means Clustering Algorithm. arXiv preprint arXiv:1503.00900.

Cost, S., & Salzberg, S. (1993). A weighted Nearest Neighbor algorithm for learning with symbolic features. Machine Learning, 10(1), 57-78.

Ali, M., Son, D. H., Kang, S. H., & Nam, S. R. (2017). An accurate CT saturation classification using a deep learning approach based on unsupervised feature extraction and supervised fine-tuning strategy. Energies, 10(11), 1830.

Haltuf, M. (2014). Support Vector Machines for Credit Scoring. Thesis, Faculty of Finance University of Economics in Prague. Prague.

SMA Muhammadiyah 3 Jember. (2021). Profil SMA Muhammadiyah 3 Jember. Pada laman https://smamuh3jbr.sch.id/tentang-sekolah/ diakses pada tanggal 1 July 2021.


Refbacks

  • There are currently no refbacks.


Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.