OPTIMASI JUMLAH TOPIK KORPUS MENGGUNAKAN METODE LATENT DIRICHLET ALLOCATION (LDA)

SUBENO, Bambang and Kusumaningrum, Retno and Farikhin, Farikhin (2017) OPTIMASI JUMLAH TOPIK KORPUS MENGGUNAKAN METODE LATENT DIRICHLET ALLOCATION (LDA). Masters thesis, School of Postgraduate.

[img]
Preview
PDF
708Kb
[img]PDF
Restricted to Repository staff only

3441Kb

Abstract

Latent Dirichlet Allocation (LDA) merupakan sebuah model probabilitas untuk mengelompokkan topik yang tersembunyi di dalam dokumen dengan jumlah topik yang ditetapkan sebelumnya. Penentuan jumlah topik K yang kurang tepat akan mengakibatkan terbatasnya korelasi kata dengan topik, jumlah topik K terlalu besar atau terlalu kecil menyebabkan ketidakakuratan pengelompokkan topik pada pembentukan model training. Pada penelitian ini bertujuan untuk menentukan jumlah topik korpus yang optimal pada metode LDA dengan menggunakan pendekatan maximum likelihood dan Minimum Description Length (MDL). Proses eksperimen menggunakan artikel berita bahasa Indonesia dengan jumlah dokumen 25, 50, 90, 600 jumlah kata 3898, 7760, 13005, 4365. Hasil penelitian ini menunjukan bahwa pendekatan maximum likelihood dan MDL menghasilkan jumlah topik optimal yang sama. Jumlah topik optimal sangat dipengaruhi oleh parameter alfa dan beta. Banyaknya dokumen tidak mempengaruhi waktu komputasi, akan tetapi jumlah kata yang mempengaruhi waktu komputasi. Waktu komputasi untuk masing masing dataset tersebut adalah 2.9721 detik, 6.49637 detik, 13.2967 detik, dan 3.7152 detik. Penerapan hasil model optimasi jumlah topik LDA sebagai model klasifikasi, menghasilkan rata-rata nilai akurasi tertinggi 60% dengan parameter alfa 0.1 dan beta 0.001. Kata kunci : jumlah topik, likelihood, minimum discription length, latent dirichlet allocation, pengelompokan. Latent Dirichlet Allocation (LDA) is a probability model for grouping hidden topics in documents by the number of predefined topics. Incorrectly, determining the number of K topics will result in limited word correlation with topics, the number of K topics too large or small causes the inaccuracies of grouping topics in the formation of training models. This study aims to determine the optimal number of corpus topics in the LDA method using the maximum likelihood and Minimum Description Length (MDL) approach. The experimental process used an Indonesian news articles with the number of documents such 25, 50, 90, 600 with the number of words 3898, 7760, 13005, 4365. The results showed that the maximum likelihood and MDL approach resulted in the same number of optimal topics. The optimal number of topics is influenced by alpha and beta parameters. In addition, the number of documents does not affect the computation times, but the number of words that affect computing time. Computational times for each of those datasets are 2.9721, 6.49637, 13.2967, and 3.7152 seconds. The optimazation model have results a number of LDA topic as a classification model, this experiment shows highest average accuracy of 60% with alpha 0.1 and beta 0.001. Keywords : number of topic, likelihood, minimum discription length, latent dirichlet allocation, clustering.

Item Type:Thesis (Masters)
Subjects:Q Science > QA Mathematics > QA76 Computer software
Divisions:School of Postgraduate (mixed) > Master Program in Information System
ID Code:57997
Deposited By:Mrs Ekana Perpus Pasca
Deposited On:13 Nov 2017 11:26
Last Modified:13 Nov 2017 11:26

Repository Staff Only: item control page