Penerapan K-Means Cluster dan Evaluasi Clustering pada Pesebaran Kasus Covid-19
DOI:
https://doi.org/10.29313/statistika.v22i2.1229Abstract
ABSTRAK
Indonesia menduduki negara dengan kasus positif Covid-19 tinggi. Jumlah penduduk yang besar berpotensi dalam penularan virus. Diperlukan upaya untuk mengurangi penularan virus ini, salah satunya adalah mengetahui karakteristik data pasien Covid-19 untuk tiap provinsi dan mengelompokkannya berdasarkan kesamaan karakteristik dari pasien, sehingga dapat diketahui karakteristik dari masing-masing kelompok pasien. Analisis yang paling tepat dalam mengatasi permasalahan ini adalah K-Means Cluster, yang bertujuan mengelompokkan n objek berdasarkan p variabel yang memiliki kesamaan karakteristik diantara objek-objek yang diklasifikasikan ke dalam satu atau lebih cluster, sehingga objek yang berada dalam satu cluster akan mempunyai kesamaan sifat. Data penelitian adalah kasus Covid-19 untuk 34 Provinsi di Indonesia tahun 2021. Penelitian ini bertujuan menerapkan metode K-Means Cluster sehingga diketahui karakteristik cluster tiap provinsi yang terbentuk berdasarkan tingkat sebaran kasus Covid-19, dan mengetahui variable yang paling berpengaruh pada cluster yang terbentuk.Variabel dalam penelitian ini adalah pasien terkonfirmasi, pasien sembuh, pasien meninggal, jumlah penduduk, kepadatan penduduk, usia lansia, dan sarana kesehatan.. Informasi dari hasil penelitian ini diharapkan dapat memberi alternatif untuk pencegahan Covid-19 pada kelompok provinsi berdasarkan kesamaan sifat pasien yang terjangkit Covid-19 dan ciri khas dari tiap kelompok. Sehingga diharapkan dapat memutus rantai penyebaran Covid-19 di Indonesia. Hasil penelitian menunjukkan, pesebaran kasus Covid-19 di 34 provinsi Indonesia dapat dikelompokkan ke dalam tiga klaster. Provinsi dengan jumlah penduduk terbanyak, kepadatan penduduk tertinggi, jumlah penduduk lansia terbesar, dan sarana kesehatan terbanyak terdapat pada klaster 1 juga menunjukkan jumlah pasien terkonfirmasi, jumlah pasien sembuh, dan jumlah pasien meninggal tertinggi. Variable-variabel yang paling mendominasi dalam K-Means cluster ini adalah jumlah penduduk, kepadatan penduduk , jumlah penduduk lansia, dan sarana Kesehatan.
Kata Kunci: Covid-19, analsis cluster, K-Means cluster
ABSTRACT
Indonesia is the country with the highest number of positive Covid-19 cases. A large population has the potential to transmit the virus. Efforts are needed to reduce the transmission of this virus, one of which is knowing the characteristics of the Covid-19 patient data for each province and grouping them based on the similarity of the characteristics of the patients, so that the characteristics of each group of patients can be known. The most appropriate analysis in overcoming this problem is the K-Means Cluster, which aims to group n objects based on p variables that have similar characteristics among objects classified into one or more clusters, so that objects in one cluster will have similar properties. . The research data are Covid-19 cases for 34 provinces in Indonesia in 2021. This study aims to apply the K-Means Cluster method so that the characteristics of the clusters of each province formed based on the level of distribution of Covid-19 cases are known, and determine the variables that have the most influence on the clusters formed. The variables in this study are confirmed patients, recovered patients, deceased patients, population, population density, elderly age, and health facilities. Information from the results of this study is expected to provide an alternative for Covid-19 prevention in provincial groups based on the similarity of patient characteristics. infected with Covid-19 and the characteristics of each group. So that it is expected to break the chain of the spread of Covid-19 in Indonesia. The results show that the distribution of Covid-19 cases in 34 provinces of Indonesia can be grouped into three clusters. Provinces with the highest population, highest population density, largest number of elderly population, and highest number of health facilities are in cluster 1 also showing the highest number of confirmed patients, number of recovered patients, and highest number of patients dying. The most dominating variables in this K-Means cluster are population, population density, number of elderly people, and health facilities.
Keywords: Covid-19, cluster analysis, K-Means cluster