Analisis Pengaruh PCA Pada Klasifikasi Kualitas Air Menggunakan Algoritma K-Nearest Neighbor dan Logistic Regression

Baiq Nurul Azmi, Arief Hermawan, Donny Avianto

Abstract


Air bersih merupakan komponen penting untuk mendukung keberlangsungan hidup manusia. Perkembangan industri dan semakin bervariasinya aktivitas manusia berdampak pada penurunan kualitas air di area tersebut. Penurunan tingkat kualitas air dapat menyebabkan air menjadi tidak layak untuk dikonsumsi bahkan berbahaya untuk dikonsumsi. Kemampuan mengklasifikasi kualitas air secara akurat sangat diperlukan untuk menghindari penurunan tingkat kualitas air. Penelitian sebelumnya menunjukkan bahwa jumlah fitur yang digunakan untuk klasifikasi kualitas air sangat banyak. Jumlah fitur yang banyak ini memang dapat membantu metode pengklasifikasi untuk melihat domain permasalahan secara menyeluruh. Namun, belum ada penelitian yang meninjau secara detail apakah jumlah fitur yang banyak benar-benar diperlukan untuk mendapatkan hasil terbaik. Penelitian ini mengkaji penggunaan metode principal component analysis (PCA) untuk menemukan jumlah fitur yang paling optimal dalam konteks klasifikasi kualitas air. Penelitian ini menggunakan data kualitas air di lingkungan perkotaan yang diperoleh dari situs kaggle. Total data yang digunakan adalah 8000 baris data dengan 21 fitur untuk setiap baris data yang ada. Fitur hasil principal component analysis  kemudian dijadikan input untuk dua metode klasfikasi yaitu k-nearest neighbor (kNN) dan logistic regression. Penggunaan dua metode klasifikasi yang berbeda ini bertujuan menemukan tingkat akurasi terbaik untuk data yang digunakan. Hasil eksperimen menunjukkan metode k-nearest neighbor mampu memberikan performa yang lebih baik dibandingkan logistic regression dengan pencapaian nilai akurasi 90.8%, presisi 90.0%, dan recall 91.0%. Hasil ini didapatkan dengan melibatkan seluruh fitur yang ada dan nilai k=9, sehingga dapat disimpulkan bahwa jumlah fitur yang banyak pada konteks klasifikasi kulitas air memang diperlukan untuk mendapatkan nilai akurasi yang tinggi.

 

Kata kunci: kualitas, air, PCA, kNN, logistic, regression


Keywords


klasifikasi kualitas air; principal component analysis; k-nearest neighbor; logistic regression

References


Agresti, A., 1990. Categorical Data Analysis. New York: John Wiley & Sons, Inc.

Hosmer, D.W. and Lemeshow, S., 2000. Applied Logistic Regression. 2nd ed. United States of America: John Wiley & Sons, Inc.

Ilmaniati, A. and Putro, B.E., 2019. Analisis komponen utama faktor-faktor pendahulu (antecendents) berbagi pengetahuan pada usaha mikro, kecil, dan menengah (UMKM) di Indonesia. Jurnal Teknologi, [online] 11(1), pp.67–78. Available at: .

Jasmir, 2016. Implementasi Teknik Data cleaning dan Teknik Roughset pada Data Tidak Lengkap dalam Data Mining. Seminar Nasional APTIKOM (SEMNASTIKOM), pp.99–106.

Kripsiandita, Y., Arifianto, D. and A’yun, Q., 2021. Deteksi Gangguan Autis Pada Anak Menggunakan Metode Modified K-Nearst Neighbor. JUSTINDO (Jurnal Sistem dan Teknologi Informasi Indonesia), 6(1), pp.31–37. https://doi.org/10.32528/justindo.v6i1.4357.

Kustanto, A., 2020. Water quality in Indonesia: The role of socioeconomic indicators. Jurnal Ekonomi Pembangunan, 18(1), pp.47–62. https://doi.org/10.29259/jep.v18i1.11509.

Muhtadi, 2017. Penerapan Principal COmponent Analysis (PCA) Dalam Algoritma K-Means Untuk Menentukan Centroid Pada Clustering. Journal of Mathematic Teaching, 1(1), pp.121–142.

Novita, S., Harsani, P. and Qur’ania, A., 2018. Penerapan K-Nearest Neighbor (KNN) untuk Klasifikasi Anggrek Berdasarkan Karakter Morfologi Daun dan Bunga. Komputasi, 15(1), pp.118–125.

Pritalia, G.L., 2022. Analisis Komparatif Algoritme Machine Learning dan Penanganan Imbalanced Data pada Klasifikasi Kualitas Air Layak Minum. KONSTELASI: Konvergensi Teknologi dan Sistem Informasi, 2(1), pp.43–55. https://doi.org/10.24002/konstelasi.v2i1.5630.

Purwa, T., 2019. Perbandingan Metode Regresi Logistik dan Random Forest untuk Klasifikasi Data Imbalanced (Studi Kasus: Klasifikasi Rumah Tangga Miskin di Kabupaten Karangasem, Bali Tahun 2017). Jurnal Matematika, Statistika dan Komputasi, 16(1), p.58. https://doi.org/10.20956/jmsk.v16i1.6494.

Rahman, M.A., Hidayat, N. and Supianto, A.A., 2018. Komparasi Metode Data Mining K-Nearest Neighbor Dengan Naïve Bayes Untuk Klasifikasi Kualitas Air Bersih (Studi Kasus PDAM Tirta Kencana Kabupaten Jombang). Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Vol. 2, No. 12, Desember 2018, hlm. 6346-6353 e-ISSN:, 2(12), pp.925–928.

Raysyah, S., Arinal, V. and Mulyana, D.I., 2021. Klasifikasi Tingkat Kematangan Buah Kopi Berdasarkan Deteksi Warna Menggunakan Metode Knn Dan Pca. JSiI (Jurnal Sistem Informasi), 8(2), pp.88–95. https://doi.org/10.30656/jsii.v8i2.3638.

SDGS, S.N., 2022. Air Bersih dan Sanitasi Layak. [online] SDGS Bappenas. Available at: [Accessed 27 June 2022].

Setianto, Y.A., Kusrini, K. and Henderi, H., 2019. Penerapan Algoritma K-Nearest Neighbour Dalam Menentukan Pembinaan Koperasi Kabupaten Kotawaringin Timur. Creative Information Technology Journal, 5(3), p.232. https://doi.org/10.24076/citec.2018v5i3.179.

Tampil, Y., Komaliq, H. and Langi, Y., 2017. Analisis Regresi Logistik Untuk Menentukan Faktor-Faktor Yang Mempengaruhi Indeks Prestasi Kumulatif (IPK) Mahasiswa FMIPA Universitas Sam Ratulangi Manado. d’CARTESIAN, 6(2), p.56. https://doi.org/10.35799/dc.6.2.2017.17023.

Yustanti, W., 2012. Algoritma K-Nearest Neighbour untuk Memprediksi Harga Jual Tanah. Jurnal Matematika statistika dan komputasi, 9(1), pp.57–68.




DOI: https://doi.org/10.32528/justindo.v7i2.8190

Refbacks

  • There are currently no refbacks.


Copyright (c) 2022 Baiq Nurul Azmi, Arief Hermawan, Donny Avianto

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

View My Stats