Pendekatan Naïve Bayes untuk Mengidentifikasi Perokok Tembakau Berdasarkan Faktor Sosio-Demografi dan Kesehatan
DOI:
https://doi.org/10.29313/statistika.v24i2.4224Keywords:
Merokok, Klasifikasi, Naïve Bayes, Model, AkurasiAbstract
ABSTRAK
Merokok adalah kebiasaan yang berdampak negatif pada kesehatan masyarakat Indonesia. Untuk mengatasi masalah ini, diperlukan pemahaman tentang faktor-faktor demografi, pendidikan, dan kesehatan yang mempengaruhi perilaku merokok. Penggunaan metode klasifikasi Naïve Bayes relevan karena dapat memberikan wawasan menyeluruh mengenai faktor-faktor yang mempengaruhi perilaku perokok tembakau di Kota Tasikmalaya. Penelitian ini menggunakan data dari Survei Sosial Ekonomi Nasional (SUSENAS) Maret 2023 di Kota Tasikmalaya. Data dibagi menjadi data pelatihan dan data pengujian, dan kemudian dibagi lagi untuk validasi model. Model tersebut dibuat dan dievaluasi dengan mengacak sampel, membuat model, dan mengevaluasi sebanyak 100 kali. Hasil evaluasi kinerja model dalam mengklasifikasi data validasi menunjukkan akurasi rata-rata 87% dengan standar deviasi 0,0689 dan standar error 0,00689. Confidence interval antara 85.64% dan 88.35% menunjukkan model yang dapat diandalkan. Pengujian akhir model pada data testing mencapai akurasi 83.33%, menunjukkan model berkemampuan baik dalam mengklasifikasikan perokok tembakau di Kota Tasikmalaya pada Februari 2023.
ABSTRACT
Smoking is a habit that negatively impacts the health of the Indonesian population. To address this issue, it is essential to understand the demographic, educational, and health factors influencing smoking behavior. The use of the Naïve Bayes classification method is relevant as it provides comprehensive insights into the factors affecting tobacco smoking behavior in the city of Tasikmalaya. This study uses data from the National Socio-Economic Survey (SUSENAS) conducted in March 2023 in Tasikmalaya. The data is divided into training and testing datasets, with the training data further split for model validation. The model was built and evaluated by randomizing samples, creating models, and evaluating them 100 times. The model's performance evaluation in classifying the validation data showed an average accuracy of 87% with a standard deviation of 0.0689 and a standard error of 0.00689. The confidence interval between 85.64% and 88.35% indicates a reliable model. The final testing of the model on the testing data achieved an accuracy of 83.33%, model demonstrating a good capability in classifying tobacco smokers in Tasikmalaya in February 2023.
References
Alamsyah, A., & Nopianto. (2022). Determinan Perilaku Merokok pada Remaja. Jurnal Endurance, 2(1), 25–30. https://doi.org/10.22216/jen.v2i1.1014
Alfa, S. (2015). Implementasi Metode Klasifikasi Naïve Bayes Dalam Memprediksi Besarnya Penggunaan Listrik Rumah Tangga. Citec Journal, 2(3).
Arieska, D. I., & Pusponegoro, N. H. (2016). Pendugaan Standard Errordan Confidence Intervalkoefisien Gini dengan Metode Bootstrap: Terapan pada Data Susenas Provinsi Papua Barat Tahun 2013. Jurnal Aplikasi Statistika & Komputasi Statistik, 8(2), 57–66.
Arindi, P., & Lumbanbatu, K. (2022). Klasifikasi Kecanduan Rokok Dengan Naive Bayes. Pelita Informatika: Informasi Dan Informatika, 11(1).
Ayudhitama, A. P., & Pujianto, U. (2020). Analisa 4 Algoritma dalam Klasifikasi Penyakit Liver Menggunakan Rapidminer. Jurnal Informatika Polinema, 6(2).
Ediana, D., & Sari, N. (2022). Faktor-Faktor yang Berhubungan dengan Kebiasaan Merokok Dalam Rumah. Jurnal Endurance, 6(1), 150–161. https://doi.org/10.22216/jen.v6i1.152
Febriani, S. (2020). Analisis Deskriptif Standar Deviasi. Jurnal Pendidikan Tambusai, 6(1).
Gule, Y. (2022). Edukasi Bahaya Merokok dalam Perspektif Kristen. Jurnal Abdidas, 3(4), 637–643. https://doi.org/10.31004/abdidas.v3i4.635
Gunawan, D. (2016). Evaluasi Performa Pemecahan Database dengan Metode Klasifikasi Pada Data Preprocessing Data mining. Khazanah Informatika : Jurnal Ilmu Komputer Dan Informatika, 2(1), 10–13. https://doi.org/10.23917/khif.v2i1.1749
Husein, H., & Menga, M. K. (2019). Pengetahuan dengan Perilaku Merokok Remaja Knowledge with Adolescent Smoking Behavior. Jurnal Ilmiah Kesehatan, 1(1), 45–50. https://doi.org/10.36590/jika
Indriani, N., Rainarli, E., & Dewi, K. E. (2017). Peringkasan dan Support Vector Machine pada Klasifikasi Dokumen. Jurnal Infotel, 9(4). https://doi.org/10.20895/infotel.v9i4
Jannah, Q. M., & Purwanta, P. (2018). Hubungan Pengetahuan dan Sikap Tentang Rokok dengan Kepatuhan Masyarakat pada Program Rumah Bebas Asap Rokok di Kota Yogyakarta. Jurnal Keperawatan Klinis Dan Komunitas, 2(2), 94. https://doi.org/10.22146/jkkk.44293
Kamulyan, P., Wiguna, P. A., & Slamet, D. A. (2017). Penilaian Keberlanjutan Pengelolaan Sistem Penyediaan Air Minum Berbasis Masyarakat di Kota Blitar. ITS Journal of Civic Engineering, 32(2).
Kementerian Kesehatan. (2022, October). Temuan Survei GATS : Perokok Dewasa di Indonesia Naik 10 Tahun Terakhir. Https://Sehatnegeriku.Kemkes.Go.Id/Baca/Umum/20220601/4440021/Temuan-Survei-Gats-Perokok-Dewasa-Di-Indonesia-Naik-10-Tahun-Terakhir/#:~:Text=Dalam%20temuannya%2C%20selama%20kurun%20waktu,Juta%20perokok%20pada%20tahun%202021.
Muraina, I. O. (2022). Ideal Dataset Splitting Ratios in Machine Learning Algorithms: General Concerns For Data Scientists And Data Analysts. 7th International Mardin Artuklu Scientific Researches Conference. https://www.researchgate.net/publication/358284895
Nasution, D. A., Khotimah, H. H., & Chamidah, N. (2019). Perbandingan Normalisasi Data untuk Klasifikasi Wine Menggunakan Algoritma K-NN. Computer Engineering, Science and System Journal, 4(1), 78. https://doi.org/10.24114/cess.v4i1.11458
Oroh, A. G., Oktamianti, P., Wardiah, R., & Hidayati, F. (2022). Determinan Perilaku Merokok Pada Remaja di Kecamatan Alam Barajo Kota Jambi. Jurnal Endurance, 7(3), 654–660. https://doi.org/10.22216/jen.v7i3.1741
Patandung, Y., & Feriyanto. (2022). Modifikasi Perilaku Merokok Menggunakan Strategi Pengendalian Diri. Jurnal Sinestesia, 12(1). https://sinestesia.pustaka.my.id/journal/article/view/152
Prastiwi, A. (2018). Estimasi Cadangan Klaim Incurred But Not Reported (IBNR) Menggunakan Metode Chain Ladder dan Pendekatan Over-Dispersed Poisson. Universitas Islam Indonesia.
Pratama, Y., Rasywir, E., Fachruddin, F., Kisbianty, D., & Irawan, B. (2023). Eksperimen Layer Pooling menggunakan Standar Deviasi untuk Klasifikasi Dataset Citra Wajah dengan Metode CNN. Building of Informatics, Technology and Science (BITS), 5(1). https://doi.org/10.47065/bits.v5i1.3604
Purbolaksono, M. D., Tantowi, M. I., Hidayat, A. I., & Adiwijaya, A. (2021). Perbandingan Support Vector Machine dan Modified Balanced Random Forest dalam Deteksi Pasien Penyakit Diabetes. Jurnal RESTI (Rekayasa Sistem Dan Teknologi Informasi), 5(2), 393–399. https://doi.org/10.29207/resti.v5i2.3008
Sanhaji, G., Febrianti, A., & Hidayat, H. (2024). Aplikasi DIATECT Untuk Prediksi Penyakit Diabetes Menggunakan SVM Berbasis Web. Jurnal Tekno Kompak, 18(1), 150. https://doi.org/10.33365/jtk.v18i1.3643
Turot, M. . , Polii, B. . , & Walangitan, H. D. (2016). Potensi Pemanfaatan Tumbuhan Paku Diplazium Esculentum Swartz (Studi Kasus) di Distrik Aifat Utara Kabupaten Maybrat Provinsi Papua Barat. AGRI-SOSIOEKONOMI, 12(3A), 1. https://doi.org/10.35791/agrsosek.12.3A.2016.14232
Watratan, A. F., B, A. Puspita., & Moeis, D. (2020). Implementasi Algoritma Naive Bayes Untuk Memprediksi Tingkat Penyebaran Covid-19 Di Indonesia. Journal of Applied Computer Science and Technology, 1(1), 7–14. https://doi.org/10.52158/jacost.v1i1.9
Wibisono, A. D., Dadi Rizkiono, S., & Wantoro, A. (2020). Filtering Spam Email Menggunakan Metode Naive Bayes. TELEFORTECH : Journal of Telematics and Information Technology, 1(1). https://doi.org/10.33365/tft.v1i1.685
World Health Organization. (2020, October). Pernyataan: Hari Tanpa Tembakau Sedunia 2020. https://www.who.int/indonesia/news/detail/30-05-2020-pernyataan-hari-tanpa-tembakau-sedunia-2020#:~:text=Setiap%20tahun%2C%20sekitar%20225.700%20orang,mitra%20setiap%20tanggal%2031%20Mei.