PENGARUH SYNTHETIC MINORITY OVERSAMPLING TECHNIQUE(SMOTE), REPRESENTASI FITUR, DAN ALGORITMA KLASIFIKASI PADA SENTIMENT ANALYSIS

Satriaji, Widi and KUSUMANINGRUM, RETNO (2018) PENGARUH SYNTHETIC MINORITY OVERSAMPLING TECHNIQUE(SMOTE), REPRESENTASI FITUR, DAN ALGORITMA KLASIFIKASI PADA SENTIMENT ANALYSIS. Undergraduate thesis, Universitas Diponegoro.

[img]
Preview
PDF
Available under License Creative Commons Attribution Non-commercial Share Alike.

999Kb

Abstract

Komentar-komentar pada layanan sewa hotel online seperti Traveloka merupakan sumber daya sangat penting yang bisa digunakan bagi pihak penyedia layanan tersebut termasuk pengelola hotel terkait untuk melakukan kontrol kualitas pada layanan sewa hotel mereka, yang berakhir pada meningkatnya kepuasan pelanggan. Sentiment Analysis (SA) merupakan tool untuk melakukan analisis terhadap komentar-komentar tersebut. Permasalahanpermasalahan yang muncul pada sentiment analysis adalah tidak seimbangnya data komentar (imbalanced datasets) dalam hal jumlah dari masing-masing kelas, kemudian algoritma klasifikasi serta representasi fitur yang akan digunakan. Penelitian ini akan mencoba melihat bagaimana SMOTE (Synthetic Minority Oversampling Technique) dalam usaha menyeimbangkan jumlah data dari masing-masing kelas, penggunaan algoritma klasifikasi Naïve Bayes, Logistic Regression, dan Support Vector Machine, dan penggunaan representasi fitur term presence, term occurrence, dan TF-IDF dalam pengaruhnya terhadap hasil kinerja sentiment analysis. Penggunaan SMOTE terbilang cukup efektif dalam memperbaiki kinerja model pada kasus klasifikasi dengan data tidak seimbang, yang dibuktikan dengan peningkatan kinerja rata-rata model sebesar kurang lebih 12%. Representasi fitur term occurrence menghasilkan nilai g-mean score rata-rata sebesar 81,68%, kemudian term presence sebesar 79,89%, dan terakhir TF-IDF sebesar 79,31%. Sedangkan untuk algoritma klasifikasi, Logistic Regression menghasilkan nilai g-mean score rata-rata sebesar 81,65%, kemudian Support Vector Machine sebesar 81,55%, dan terakhir Naïve Bayes sebesar 77,68%.

Item Type:Thesis (Undergraduate)
Subjects:Q Science > QA Mathematics > QA75 Electronic computers. Computer science
Q Science > QA Mathematics > QA76 Computer software
Divisions:Faculty of Science and Mathematics > Department of Computer Science
ID Code:65820
Deposited By:INVALID USER
Deposited On:11 Oct 2018 17:54
Last Modified:11 Oct 2018 17:54

Repository Staff Only: item control page