Algoritma Pemilihan Variabel untuk Klasifikasi dan Penerapannya pada Klasifikasi Desa-Kelurahan

Desi Permatasari; Suliadi

doi:10.29313/jrs.v4i1.3876

Authors

Desi Permatasari Statistika, Universitas Islam Bandung
Suliadi Statistika, Universitas Islam Bandung

DOI:

https://doi.org/10.29313/jrs.v4i1.3876

Keywords:

K-Nearest Neighbor, Pemilihan Variabel, Statistik Non-parametrik

Abstract

ABSTRAK. K-Nearest Neighbor (KNN) adalah salah satu metode klasifikasi non-parametrik yang prinsip pengerjaannya dengan mengklasifikasikan suatu objek dalam data testing berdasarkan kelas mayoritas dari k tetangga terdekatnya (neighbor) pada data training. Salah satu permasalahan yang utama pada KNN yaitu banyak variabel yang harus digunakan dalam pelaksanaannya, terlebih terdapat kasus dimana banyaknya variabel lebih besar dibanding dengan banyaknya pengamatan. Maka dari itu, Beuren & Anzanello (2019) membuat kerangka kerja baru untuk pemilihan variabel dengan menggabungkan beberapa metode, yaitu Mutual Information (MI), Algoritma Kennard Stone (KS), Statistik Anderson Darling (AD), Statistik Kruskal Wallis (KW), K-Nearest Neighbor (KNN), Leave One Out Cross Validation (LOOCV), dan Confusion Matrix. Pada penelitian ini menerapkan metode Beuren & Anzanello (2019) untuk memilih variabel untuk mengklasifikasikan desa/kelurahan ke dalam status perdesaan dan perkotaan di wilayah Bandung Raya. Dengan menggunakan algoritma K-Nearest Neighbor (KNN) dan k = 5 tetangga terdekat dari 24 variabel diperoleh kombinasi variable independent, yaitu Kepadatan Penduduk (X_8) dan Banyaknya Penduduk (X_5) adalah kombinasi yang paling cocok dalam mengklasifikasikan status perdesaan dan perkotaan pada desa/kelurahan yang ada di wilayah Bandung Raya, diperoleh hasil akurasi sebesar 80.72%.

References

S. Pramana, B. Yuniarto, S. Mariyah, I. Santoso, and R. Nooraeni, Data Mining dengan R Konsep Serta Impletensi. Bogor : IN MEDIA, 2018.

R. Intan, O. Y. Yuliana, and D. Kristanto, “Bayesian Belief Network untuk Menghasilkan Fuzzy Association Rules,” Jurnal Teknik Industri, vol. 12, no. 1, pp. 55–60, May 2010, doi: 10.9744/jti.12.1.55-60.

T. P. Hettmansperger, J. W. McKean, and S. J. Sheather, “Robust Nonparametric Methods,” J Am Stat Assoc, vol. 95, no. 452, pp. 1308–1312, Dec. 2000, doi: 10.2307/2669777.

N. Suhartina and I. Sukarsih, “Model SVEIR Penyebaran Penyakit Rabies Terhadap Anjing dengan Vaksinasi,” DataMath: Journal of Statistics and Mathematics, vol. 2, no. 1, pp. 25–32, 2024.

A. D. Sofia and A. Kudus, “Pengelompokan Kabupaten/Kota berdasarkan Indikator Indeks Pembangunan Manusia 2022 Menggunakan K-Harmonic Means Clustering,” Jurnal Riset Statistika, vol. 3, no. 2, pp. 163–172, Dec. 2023, doi: 10.29313/jrs.v3i2.3130.

G. M. Beuren and M. J. Anzanello, “Variable selection using statistical non-parametric tests for classifying production batches into multiple classes,” Chemometrics and Intelligent Laboratory Systems, vol. 193, no. 1, p. 103830, Oct. 2019, doi: 10.1016/j.chemolab.2019.103830.

G. W. Corder and D. J. Foreman, Nonparametric Statistics for Non‐Statisticians. John Wiley & Sons, Inc, 2009.

R. W. Kennard and L. A. Stone, “Computer Aided Design of Experiments,” Technometrics, vol. 11, no. 1, pp. 137–148, Feb. 1969, doi: 10.1080/00401706.1969.10490666.

R. Kohavi, “Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection,” in International Joint Conference on Articial Intelligence (IJCAI), 2001.

W. H. Kruskal, “A Nonparametric test for the Several Sample Problem,” The Annals of Mathematical Statistics, vol. 23, no. 4, pp. 525–40, 1952.

B. Yu. Lemeshko and I. V. Veretel’nikova, “Power of k-Sample Tests Aimed at Checking the Homogeneity of Laws,” Measurement Techniques, vol. 61, no. 7, pp. 647–654, Oct. 2018, doi: 10.1007/s11018-018-1479-1.

BPS, Head of BPS Regulation No. 120 of 2020 Concerning Classification of Villages, Urban and Rural Areas in Indonesia 2020, Book 2. Badan Pusat Statitsik, 2020.

F. W. Scholz and M. A. Stephens, “K-Sample Anderson-Darling Tests,” J Am Stat Assoc, vol. 82, no. 399, pp. 918–924, 1987.

D. W. Scott, Multivariate Density Estimation: Theory, Practice, and Visualization, 2nd Edition. Wiley, 2015.

M. Sokolova and G. Lapalme, “A systematic analysis of performance measures for classification tasks,” Inf Process Manag, vol. 45, no. 4, pp. 427–437, Jul. 2009, doi: 10.1016/j.ipm.2009.03.002.