Peringkasan dokumen berita Bahasa Indonesia menggunakan metode Cross Latent Semantic Analysis

Gamaria Mandar
Gunawan Gunawan

Abstract


  

Peringkasan dokumen berita Bahasa Indonesia dapat membantu untuk menemukan ide-ide pokok atau informasi penting lain dari sebuah berita. Berita umumnya terdiri atas banyaknya paragraf menjadi sebab diperlukan sebuah sistem untuk mengekstrak informasi, sehingga mampu memberikan ide pokok atau informasi penting yang tepat kepada pembaca, tanpa harus membaca secara detail keseluruhan isi berita tersebut, di samping itu dapat dimanfaatkan guna keperluaan Really Simple Syndication Feed (RSS-Feed). Penelitian ini memaparkan peringkasan dokumen berita berbahasa Indonesia menggunakan metode Cross Latent Semantic Analysis (CLSA) dan Latent Semantic Analysis (LSA). Untuk menguji seberapa baik hasil ringkasan yang dilakukan CLSA penelitian ini menggunakan 240 artikel berita yang diambil dari halaman portal www.kompas.com dan dua pakar yang berlatar belakang bidang yang berbeda. Hasil ringkasan CLSA dengan compression rate 30% memperoleh nilai F-Measure 0.72%. Penelitian ini juga menemukan fakta bahwa CLSA lebih baik dari metode LSA yang merupakan cikal bakal dari metode CLSA, walaupun skor hasil F-Measure keduanya tidak berbeda jauh.

Kata kunci: Berita, Cross latent semantic analyisis, Latent semantic analysis, peringkasan dokumen, RSS-Feed.

   

 

 

 

Summarizing news documents in Bahasa serves to find main ideas or any other important information from a piece of news. A system to extract the information from ones consisting of many paragraphs is then deemed necessary in order to present precise main ideas or important information to the readers without them having to read the entire passage of news documents, in addition to become useful for Really Simple Syndication Feed (RSS-Feed). This article discusses summarizing news documents in Bahasa using Cross Latent Semantic Analysis (CLSA). To test if the summary resulted from CLSA qualified, this study examines 240 news articles retrieved from www.kompas.com and employs two experts from different fields. The summary resulted from CLSA with a compression rate of 30% obtains an F-Measure of 0.72%. This study also evidently indicates that CLSA has better performance from Latent Semantic Analysis (LSA) which was the initial system for CLSA, despite both F-Measure percentages being only slightly different.

Keywords: Cross latent semantic analysis, Document summarization, Latent semantic analysis, News, RSS-Feed.

  

Full Text:

PDF

References


Asian, J. (2007). Effective Techniques for Indonesian Text Retrieval. Melbourne: RMIT University.

Badry, R. M., Eldin, A. S., & Elzanfally, D. S. (2013). Text Summarization within the Latent Semantic Analysis Framework: Comparative Study. International Journal of Computer Applications, 81(11), 40-45.

Das, D., & Martins, A. F. (2007). A Survey on Automatic Text Summarization. Literature Survey for the Language and Statistics II course at CMU, 192-195.

Geetha, J. K., & Deepamala, N. (2015). Kannada text summarization using Latent Semantic Analysis. International Conference on Advances in Computing, Communications and Informatics (ICACCI) (pp. 1508-1512). Pune: IEEE.

Gong, Y., & Liu, X. (2001). Generic text summarization using relevance measure and latent semantic analysis. Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 19-25). New Orleans: ACM.

Gotami, N. S., Indriati, I., & Dewi, R. K. (2018). Peringkasan Teks Otomatis Secara Ekstraktif Pada Artikel Berita Kesehatan Berbahasa Indonesia Dengan Menggunakan Metode Latent Semantic Analysis. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 2(9), 2821-2828.

Gunawan, F. E., Juandi, A. V., & Soewito, B. (2015). An automatic text summarization using text features and singular value decomposition for popular articles in Indonesia language. 2015 International Seminar on Intelligent Technology and Its Applications (ISITIA) (pp. 27-32). Surabaya: IEEE. doi:10.1109/ISITIA.2015.7219948

Mustaqhfiri, M., Abidin, Z., & Kusumawati, R. (2011). Peringkasan teks otomatis berita berbahasa Indonesia menggunakan metode Maximum Marginal Relevance. MATICS, 4(4), 134-147.

Najibullah, A., & Mingyan, W. (2015). Otomatisasi peringkasan dokumen sebagai pendukung sistem manajemen surat. Register: Jurnal Ilmiah Teknologi Sistem Informasi, 1(1), 1-6.

Ozsoy, M. G., Cicekli, I., & Alpaslan, F. N. (2010). Text summarization of Turkish texts using latent semantic analysis. Proceedings of the 23rd International Conference on Computational Linguistics (pp. 869-876). Beijing: ACM.

Steinberger, J., & Ježek, K. (2004). Using Latent Semantic Analysis in Text Summarization and Summary Evaluation. Proc. ISIM ’04, (pp. 93–100).

Torres-Moreno, J.-M. (2014). Automatic text summarization (Vol. 5). Hoboken: Wiley-ISTE.

Viva, T. (2016, Maret 16). Riset: Konsumsi Berita Online Kalahkan Televisi. Retrieved from Viva: https://www.viva.co.id/digital/digilife/748454-riset-konsumsi-berita-online-kalahkan-televisi

Winata, F., & Rainarli, E. (2016). Implementasi Cross method Latent Semantic Analysis untuk meringkas dokumen berita Berbahasa Indonesia. Techno.Com, 15(4), 266-277.

Zeniarja, J., Salam, A., Luthfiarta, A., Handoko, L. B., & Jamhari, M. (2013). Integrasi peringkas dokumen otomatis dengan penggabungan metode fitur dan metode Latent Semantic Analysis (LSA) sebagai Feature Reduction. Seminar Nasional Teknologi Informasi & Komunikasi Terapan 2013 (SEMANTIK 2013) (pp. 191-197). Semarang: Universitas Dian Nuswantoro.




DOI: https://doi.org/10.26594/register.v3i2.1161

Article metrics

Abstract views : 48 | views : 22

Refbacks

  • There are currently no refbacks.


Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.


Indexed in:

                          


 

Creative Commons License
Register: Jurnal Ilmiah Teknologi Sistem Informasi is licensed under a Creative Commons Attribution 4.0 International License.