Analisis Sentimen Ulasan pada Gojek Menggunakan Metode Naive Bayes

Putri Yuniar; Kismiantini

doi:10.29313/statistika.v23i2.2353

Authors

Putri Yuniar Universitas Negeri Yogyakarta
Kismiantini

DOI:

https://doi.org/10.29313/statistika.v23i2.2353

Keywords:

Gojek, Analisis Sentimen, Naïve Bayes Classifier, Asosiasi Teks

Abstract

Abstrak

Gojek merupakan layanan transportasi online yang banyak digunakan di Indonesia. Penting bagi perusahaan untuk memahami persepsi masyarakat terhadap kualitas pelayanan dan produk yang ditawarkan. Namun, sulit untuk memantau banyaknya pendapat masyarakat untuk diproses secara manual. Tujuan dari penelitian ini yaitu mengklasifikasikan ulasan pada aplikasi Gojek dan menganalisis asosiasi kata dari hasil klasifikasi untuk mengetahui topik yang banyak dibicarakan dengan menggunakan data dari halaman Google Play. Beberapa tahapan yang dilakukan dalam analisis sentimen penelitian ini diantaranya yaitu pengumpulan data, preprocessing, perhitungan skor sentimen, pelabelan kelas sentimen, dan pengklasifikasian data dengan metode Naïve Bayes Classifier serta dilakukan asosiasi teks. Metode Naïve Bayes Classifier yaitu metode klasifikasi yang sederhana namun menghasilkan tingkat akurasi yang tinggi. Hasil penelitian dari data yang dikumpulkan pada 1-31 Januari 2023 dengan total sebanyak 4.198 ulasan, cenderung memiliki sentimen positif. Penelitian menggunakan metode Naïve Bayes Classifier dengan 3 rasio pembagian data training dan data testing (70%:30%, 80%:20%, 90%:10%) menghasilkan tingkat akurasi tertinggi yaitu 89,9% dengan pembagian 90% data training dan 10% data testing.

Abstract

Gojek is an online transportation service that is widely used in Indonesia. It is important for companies to understand how people perceive the quality of the services and products they provide. However, it is difficult to monitor the number of people's opinions to be processed manually. The heading of this research is to classify reviews on the Gojek application and to analyze word associations from the classification results to find out topics that are widely discussed using data from the Google Play page. In this study, several steps of sentiment analysis were carried out, including collecting data, preprocessing, determining sentiment scores, labeling sentiment classes, and classifying data data using the Naïve Bayes Classifier method and carrying out text associations. The Naïve Bayes Classifier method is a simple classification method but produces a high level of accuracy. The research results from data collected on January 1-31 2023 with a total of 4,198 reviews tend to have positive sentiment. The research used the Naïve Bayes Classifier method with three ratios of spliting training and testing data (70%:30%, 80%:20%, 90%:10%) resulting in the highest level of accuracy, namely 89.9% with a 90% division of training data and 10% testing data.

References

Alita, D., & Rahman, A. (2020). Pendeteksian Sarkasme pada Proses Analisis Sentimen Menggunakan Random Forest Classifier. Jurnal Komputasi, 8(2), 50–58.

Alwasi’a, A. (2020). Analisis Sentimen pada Review Aplikasi Berita Online Menggunakan Metode Maximum Entropy. Universitas Islam Indonesia.

Danneman, N., & Heimann, R. (2014). Social Media Mining with R : Deploy Cutting-Edge Sentiment Analysis Techniques To Real-World Social Media Data Using R. Packt Publishing Ltd.

Fadlisyah, Bustami, & Abdullah, D. (2014). Statistika: Terapannya di Informatika. Graha Ilmu.

Falahah, & Nur, D. D. A. (2015). Pengembangan Aplikasi Sentiment Analysis Menggunakan Metode Naive Bayes (Studi Kasus Sentiment Analysis dari Media Twitter). Seminar Nasional Sistem Informasi Indonesia, 335–340.

Feinerer, I., Hornik, K., & Meyer, D. (2008). Text Mining Infrastructure in R. Journal of Statistical Software, 25(5), 1–54. https://doi.org/10.18637/jss.v025.i05

Feldman, R., & Sanger, J. (2007). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press.

Guterres, A., Gunawan, & Santoso, J. (2019). Stemming Bahasa Tetun Menggunakan Pendekatan Rule Based. Teknika, 8(2), 142–147. https://doi.org/10.34148/teknika.v8i2.224

Hasri, C. F., & Alita, D. (2022). Penerapan Metode Naïve Bayes Classifier Dan Support Vector Machine Pada Analisis Sentimen Terhadap Dampak Virus Corona Di Twitter. Jurnal Informatika Dan Rekayasa Perangkat Lunak (JATIKA), 3(2), 145–160.

Hristea, F. T. (2012). The Naïve Bayes model for Unsupervised Word Sense Disambiguation: Aspects Concerning Feature Selection. Springer Science & Business Media.

Irawan, F. R., Jazuli, A., & Khotimah, T. (2022). Analisis Sentimen Terhadap Pengguna Gojek Menggunakan Metode K-Nearset Neighbors. JIKO (Jurnal Informatika Dan Komputer), 5(1), 62–68.

JoMingyu. (2021). google-play-scraper: Google Play Scraper for Python. Github. https://github.com/JoMingyu/google-play-scraper

Kuhn, M. (2022). Caret: Classification and Regression Training. https://cran.r-project.org/package=caret

Kulsum, U., Jajuli, M., & Sulistiyowati, N. (2022). Analisis Sentimen Aplikasi WETV di Google Play Store Menggunakan Algoritma Support Vector Machine. Journal of Applied Informatics and Computing, 6(2), 205–212.

Kurniawan, Y. I. (2018). Perbandingan Algoritma Naive Bayes dan C.45 dalam Klasifikasi Data Mining. Jurnal Teknologi Informasi Dan Ilmu Komputer (JTIIK), 5(4), 455–464.

Liu, J., Tian, Z., Liu, P., Jiang, J., & Li, Z. (2016). An approach of semantic web service classification based on Naive Bayes. In 2016 IEEE International Conference on Services Computing (SCC), 356–362.

Manning, C. D., Raghavan, P., & Schütze, H. (2009). An Introduction to Information Retrieval. Cambridge University Press.

Moraes, R., Valiati, J. F., & Neto, W. P. G. (2013). Document-level Sentiment Classification: An Empirical Comparison Between SVM and ANN. Expert Systems with Applications, 40(2), 621–633.

Natasuwarna, A. P. (2019). Analisis Sentimen Keputusan Pemindahan Ibukota Negara Menggunakan Klasifikasi Naive Bayes. Sensitif (Seminar Nasional Sistem Informasi Dan Teknik Informatika), 47–53.

Perez, F., Granger, B. E., & Hunter, J. D. (2011). Python : An Ecosystem for Scientific Computing. Computing in Science and Engineering, 13(2), 13–21.

Provost, F., & Kohavi, R. (1998). On Applied Research in Machine Learning. Machine Learning, 30(2/3), 127–132. http://link.springer.com/10.1023/A:1007442505281

Ramadhan, M. A., & Wahyudin, M. I. (2022). Analisis Sentimen Mengenai Keberhasilan Indonesia di Ajang Thomas Cup 2020 (Studi Kasus Media Sosial Twitter) Menggunakan Metode Naïve Bayes dan Decision Tree. Jurnal JTIK (Jurnal Teknologi Informasi Dan Komunikasi), 6(4), 505–511.

Reynaldo, J., Adikara, P. P., & Wihandika, R. C. (2020). Analisis Sentimen Mengenai Produk Toyota Avanza Menggunakan Metode Learning Vector Quantization Versi 3 (LVQ 3) dengan Seleksi Fitur Chi Square, Lexicon-Bases Features serta Normalisasi Min-Max. Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer, 4(3), 830–839.

Salsabila, N. A. (2020). Kamus Alay - Colloquial Indonesian Lexicon. Github. https://github.com/nasalsabila/kamus-alay

Santoso, E. B., & Nugroho, A. (2019). Analisis Sentimen Calon Presiden Indonesia 2019 Berdasarkan Komentar Publik di Facebook. Jurnal Eksplora Informatika, 9(1), 60–69.

Sari, F. V., & Wibowo, A. (2019). Analisis Sentimen Pelanggan Toko Online Jd.Id Menggunakan Metode Naïve Bayes Classifier Berbasis Konversi Ikon Emosi. Jurnal SIMETRIS, 10(2), 681–686.

Setiabudi, N. A. (2015). katadasaR: Function for Word Stemming Bahasa Indonesia.

Siang, J. J. (2005). Jaringan Syaraf Tiruan dan Pemogramannya Menggunakan MATLAB. ANDI.

Sihombing, L. O., Hannie, & Dermawan, B. A. (2021). Sentimen Analisis Customer Review Produk Shopee Indonesia Menggunakan Algoritma Naive Bayes Classifier. Edumatic : Jurnal Pendidikan Informatika, 5(2), 233–242.

Sutami, C. (2015). Perbandingan Metode Klasifikasi Naive Bayes Classifier Dan Lexicon Based Dalam Analisis Sentimen (Studi Kasus: Twitter). Universitas Widyatama.

Team, R. C. (2022). R: A Language And Environment for Statistical Computing. R Foundation for Statistical Computing. https://www.r-project.org/

Ulwan, M. . (2016). Pattern Recognition pada Unstructured Data Teks Menggunakan Support Vector Machine dan Association. Universitas Islam Indonesia.

Utomo, M. S. (2015). Stopword Dinamis dengan Pendekatan Statistik. Jurnal Informatika UPGRIS, 1(2), 140=148.

Verawati, I., & Audit, B. S. (2022). Algoritma Naïve Bayes Classifier Untuk Analisis Sentiment Pengguna Twitter Terhadap Provider By.u. Jurnal Media Informatika Budidarma, 6(3), 1411–1417. https://doi.org/10.30865/mib.v6i3.4132

Warnes, G. R., Bolker, B., Lumley, T., SAIC-Frederick, R. C. J. C. from R. C. J. are C., Program, I. F. by the I. R., NIH, of the, Institute, N. C., & NO1-CO-12400, C. for C. R. under N. C. (2022). gmodels: Various R Programming Tools for Model Fitting. https://cran.r-project.org/package=gmodels

Wati, R. (2016). Penerapan Algoritma Genetika Untuk Seleksi Fitur Pada Analisis Sentimen Review Jasa Maskapai Penerbangan Menggunakan Naive Bayes. Jurnal Khatulistiwa Informatika, 4(1).

Wickham, H. (2011). The Split-Apply-Combine Strategy for Data Analysis. Journal of Statistical Software, 40(1), 1–29.

Wickham, H. (2022). stringr: Simple, Consistent Wrappers for Common String Operations.