Article

IMPLEMENTASI METODA NAÏVE BAYES DAN VECTOR SPACE MODEL DALAM DETEKSI KESAMAAN ARTIKEL JURNAL BERBAHASA INDONESIA

Authors:
To read the full-text of this research, you can request a copy directly from the authors.

Abstract

Salah satu cara untuk menjaga kualitas karya ilmiah di Indonesia adalah dengan memeriksa artikel sebelum dipublikasikan. Pengecekan sebelum publikasi dilakukan agar tingkat kesamaan tidak tinggi karena makalah yang diterbitkan dapat dikutip untuk menyebabkan tingkat kesamaan yang tinggi. Masalah selanjutnya adalah pentingnya pengelompokkan makalah topik, dimana makalah yang akan diperiksa harus memiliki kategori yang sama dengan makalah yang dibandingkan. Dalam penelitian ini, untuk mengklasifikasikan topik jurnal menggunakan algoritma Naive Bayes dan untuk mengukur kesamaan makalah menggunakan metoda Vector Space Model. Algoritma Naive Bayes tidak dapat mengklasifikasikan ke dalam satu topik jurnal dengan tepat tetapi mengklasifikasikan menjadi beberapa topik jurnal sehingga mempengaruhi kinerja metoda Vector Space Model. Hasil perhitungan deteksi kesamaan teks oleh Vector Space Model dapat mencapai 90% ke atas untuk data uji tertentu. Hasil perhitungan deteksi kesamaan teks dengan metoda Vector Space Model juga sangat dipengaruhi oleh data pelatihan. Semakin lengkap dan kompleks data pelatihan, maka semakin valid hasil pengujian kinerja Vector Space Model

No full-text available

Request Full-text Paper PDF

To read the full-text of this research,
you can request a copy directly from the authors.

... Penelitian ini menggunakan model Naïve Bayes untuk mengklasifikasikan penjualan barang terlaris yang bekerja berdasarkan sebuah pengklasifikasian probabilistik sederhana dan menghitung sekumpulan probabilitas dengan menjumlahkan frekuensi dan kombinasi nilai dari data set yang diberikan. Algoritma metode Naïve Bayes merupakan sebuah pengklasifikasian probabilistik sederhana yang menghitung sekumpulan probabilitas dengan menjumlahkan frekuensi dan kombinasi nilai dari dataset yang diberikan (Ginantra & Wardani, 2019a;Islamiyati & Fikri, 2022). UD. ...
Article
Full-text available
Perusahaan ritel UD. Mawar Sari memiliki hingga 1,000,541 record data transaksi penjualan pada tahun 2019–2020 yang selama ini belum dipergunakan dengan baik. Data tersebut membutuhkan banyak ruang penyimpanan. Data tersebut juga belum dipergunakan secara efektif untuk tujuan apapun. Berdasarkan permasalahan tersebut, maka penelitian ini bertujuan untuk melakukan klasifikasi terhadap data transaksi penjualan untuk menemukan klasifikasi barang terlaris dengan data mining. Penelitian ini merupakan penelitian studi kasus yang menggunakan pendekatan penelitian kuantitatif. Metode yang digunakan adalah Naïve Bayes. Implementasi penelitian ini menggunakan Rapidminer 9.0. Hasil penelitian dari klasifikasi data transaksi penjualan adalah klasifikasi produk yang laris dan tidak laris. Peneliti melakukan pengujian dengan 6043 data training dan hasil dari split validation terbaik pada split validation 0,7 dengan accuracy sebesar 93,82%. Hasil penelitian ini dapat digunakan dan berimplikasi baik untuk manajemen UD. Mawar Sari dalam pengambilan keputusan untuk menentukan suatu produk setelah mendapatkan hasil perhitungan data mining menggunakan metode Naïve Bayes.
... It was conducted to facilitate the subsequent process. Some examples of affixes are "mem-," "-kan," "ber-," "-pun," and "me-an" [23]. The obtained root words that were used as tokens within each text content in order to enhance efficiency and accuracy in syntactic matching. ...
Article
Full-text available
Plagiarisme adalah tindakan meniru dan mengutip bahkan menyalin atau mengakui hasil karya orang lain sebagai hasil karya diri sendiri. Tugas akhir merupakan salah satu syarat wajib mahasiswa untuk menyelesaikan pembelajaran pada perguruan tinggi. Tugas akhir harus disusun mahasiswa berdasarkan ide sendiri. Akan tetapi, banyak terjadi plagiarisme karena mudahnya melakukan kegiatan tersebut, yaitu hanya dengan menyalin teks gagasan orang lain kemudian ditempelkan dalam lembar kerja dan diakui bahwa gagasan tersebut adalah ide sendiri. Selain itu, mengganti beberapa kata dalam kalimat gagasan orang lain dengan gaya bahasa sendiri tanpa menuliskan sumber aslinya juga termasuk plagiarisme. Pengecekan tugas akhir yang masih manual juga menjadi masalah bagi koordinator tugas akhir, yang membutuhkan ketelitian tinggi dan waktu yang cukup banyak untuk mengecek plagiarime pada dokumen tugas akhir. Maka, deteksi plagiarisme sangat dibutuhkan untuk mencegah tindakan plagiarisme makin berkembang. Menyikapi hal tersebut, penelitian ini bermaksud mengembangkan sistem yang dapat mendeteksi persamaan antardokumen teks yang berfokus pada kata yang mengandung sinonim pada suatu kalimat. Salah satu algoritma yang digunakan adalah synonym recognition, yang berfungsi untuk mendeteksi kata yang mengandung sinonim, dengan proses membandingkan setiap kata dengan kata yang terdapat pada kamus. Synonym recognition dikombinasikan dengan metode winnowing, yang berfungsi untuk pembobotan teks berbasis fingerprint. Setelah diperoleh bobot dari masing-masing dokumen, tingkat kemiripan antardokumen dihitung dengan algoritma cosine similarity. Hasil rata-rata nilai kemiripan untuk deteksi judul dan abstrak dengan menambahkan synonym recognition meningkat sebesar 3,11% daripada tanpa menggunakan synonym recognition yang dikombinasikan dengan metode pembobotan winnowing. Hasil pengujian menunjukkan bahwa algoritma-algoritma yang digunakan akurat dengan pengujian akurasi dan root mean squared error (RMSE).
Article
The process of stemming Balinese text using the Rule Base Approach method produces a fairly good level of accuracy, reaching 77.82%, but if we refer to the results of the tests carried out with the wrong stemming test results, there are still many errors in the stemming process because of the Rule Base Approach method has a weakness if it is applied to words that have high additive complexity and the stemming application cannot, namely the rules, then an error will occur in the stemming process. In addition, the cause of errors also occurs due to overstemming. Overstemming is a problem in the stemming process where the root word from the stemming result lacks a syllable or letter which is considered an affix as a result of the stemming process. In this study, a dictionary was added to the Rule Base Approach method to reduce stemming errors and increase the accuracy of the results. The added dictionary will be used to check every word that has gone through the affix truncation process, then the cutting results are immediately matched with the dictionary containing the base word. The use of a basic dictionary in the Rule Base Approach method can increase the accuracy of stemming by 10.61%.Keyword : Balinese language, Rule Base Approach, Stemming, Overstemming, DictionaryABSTRAKProses stemming teks Bahasa Bali dengan metoda Rule Base Approach menghasilkan tingkat akurasi yang cukup baik yaitu mencapai angka 77.82%, akan tetapi jika mengacu pada hasil pengujian tepatnya dengan hasil uji stemming salah, masih terdapat banyak kesalahan pada proses stemming hal ini di karenakan metoda Rule Base Approach memiliki kelemahan yaitu jika diterapkan pada kata yang memiliki kompleksitas imbuhan yang tinggi dan aplikasi stemming tidak dapat mengenali rule maka akan terjadi kesalahan pada proses stemming. Selain itu penyebab kesalahan juga terjadi karena overstemming. Overstemming adalah sebuah permasalahan pada proses stemming dimana kata dasar dari hasil stemming mengalami kekurangan suku kata atau huruf yang dianggap sebagai imbuhan akibat dari proses stemming. Pada penelitian ini diusulkan penambahan kamus pada metode Rule Base Approach untuk mengurangi kesalahan stemming dan meningkatkan ketepatan hasil. Kamus yang ditambahkan akan digunakan untuk pengecekan pada setiap kata yang telah melewati proses pemotongan imbuhan, kemudian hasil dari pemotongan langsung dicocokkan dengan kamus yang berisi kata dasar. Penggunaan kamus dasar pada metoda Rule Base Approach dapat meningkatkan ketepatan stemming sebesar 10.61%.Kata Kunci : Bahasa Bali, Rule Base Approach, Stemming, Overstemming, Kamus Dasar
Article
Full-text available
Until Januari 2015, social media users reached 29% of the world population. In Indonesia itself had 28% active users from total population of Indonesia. The usage of social media gives positives and negatives effect. The negatives effect are the increasing number of fraud by using SMS or social media, such as Twitter. Many people are deceived by the tweet messages sent from known user account when in fact the sender is other person. Because of that, there is a need to have a system to detect wheteher the tweet sender is the same person or not. Naive Bayes classifiers method is used to classify that. The data source is taken from tokens selected based on two models, the minimum n-time number of occurrences and the n-th highest number of occurrences. Each tweets alsoprocessed into six different types of tweets, such as formaltweet or lowercase tweet. The test uses tenfold cross-validation and measured by the value of accuracy, precision, recall, and F-score. The common result shows 82,145% level of accuracy. Second model to select the tokens shows consistency level of accuracy for each types of tweets. The fifth types of tweets also get the highest level of accuracy for both models to select the tokens.
Article
Full-text available
Buku merupakan salah satu elemen penunjang dalam proses belajar mengajar, baik itu di sekolah maupun perguruan tinggi. Salah satu tempat yang menyediakan akses untuk mendapatkan buku tersebut adalah Perpustakaan Daerah Provinsi Kalimantan Timur. Kebanyakan penggunjung sulit mendapatkan buku referensi yang tepat sesuai dengan kebutuhan mereka. Hal itu dikarenakan kurangnya fasilitas yang dapat mengklasifikasi buku-buku tersebut sesuai dengan kategorinya. Klasifikasi buku merupakan proses pengelompokkan buku sesuai dengan kategori yang dimilikinya. Sebuah buku dapat dikelompokkan ke dalam kategori tertentu berdasarkan kata-kata yang terkandung pada judul buku tersebut. Penelitian ini bertujuan untuk membuat aplikasi klasifikasi dan pencarian buku yang dapat mengatasi masalah-masalah yang berkaitan dengan pengkategorian dan pencarian buku dengan lebih mudah dan akurat. Aplikasi ini dibangun menggunakan bahasa pemrograman PHP, database MySQL, dan menggunakan metode Naïve Bayes Classiffier (NBC). Kategori buku yang digunakan ada lima, yaitu: pemrograman komputer, jaringan komputer, database komputer, multimedia, dan sistem operasi. Dengan mengimplementasikan metode NBC dan kelima kategori tersebut, maka dihasilkan sebuah aplikasi klasifikasi dan pencarian di Perpustakan Daerah Provinsi Kalimantan Timur.
Article
Full-text available
Hama dan penyakit yang menyerang tanaman padi dapat diperkirakan dari beberapa gejala yang sering dialami. Namun untuk memastikan hal tersebut, perlu dilakukan deteksi hama dan penyakit tanaman padi dengan membandingkan gejala yang dialami dengan gejala-gejala yang ada dalam fitur pendeteksi ini. Untuk membandingkannya, dibutuhkan feedback atau input jawaban dari pengguna. Banyaknya gejala dari semua daftar hama dan penyakit membuat pengguna harus memberikan feedback sebanyak daftar semua gejala yang ada, maka pada proses masukan gejala pada fitur ini dibuat dengan berbasis tekstual sehingga pengguna dapat langsung memberikan feedback tanpa harus menjawab satu per satu apakah gejala-gejala itu dialami atau tidak. Untuk mendapatkan daftar gejala yang sesuai dengan feedback, maka digunakan metode Vector Space Model dengan menentukan kemiripan diantara keduanya. Hasil output dari metode Vector Space Model inilah yang nantinya akan digunakan selanjutnya menggunakan metode Cosine Similarity untuk mendeteksi hama dan penyakit tanaman padi yang sesuai dengan feedback tersebut. Dari 25 percobaan yang telah dilakukan untuk pengujian metode Vector Space Model dalam mengidentifikasi input feedback menghasilkan akurasi sebesar 96% dan akurasi sebesar 100% setelah dilakukan pengujian terhadap metode Cosine Similarity dalam mendeteksi hama dan penyakit tanaman padi.
Article
Information retrieval (IR) is the field of computer science that deals with the processing of documents containing free text, so that they can be rapidly retrieved based on keywords specified in a user's query. IR technology is the basis of Web-based search engines, and plays a vital role in biomedical research, because it is the foundation of software that supports literature search. Documents can be indexed by both the words they contain, as well as the concepts that can be matched to domain-specific thesauri; concept matching, however, poses several practical difficulties that make it unsuitable for use by itself. This article provides an introduction to IR and summarizes various applications of IR and related technologies to genomics.
Text Categorization in Encyclopedia of Data Warehouse & Data Mining
  • M Chenoweth
  • M Song
M. Chenoweth, and M. Song "Text Categorization in Encyclopedia of Data Warehouse & Data Mining. IGI Global, 2009.
Implementasi Algoritma TF_IDF pada Pengukuran Kesamaan Dokumen
  • A Ryansyah
  • A P K Dokumen
A. Ryansyah and A.P.K. Dokumen, "Implementasi Algoritma TF_IDF pada Pengukuran Kesamaan Dokumen," No.1, pp. 1-10.
Mengukur Tingkat Kesamaan Paragraf Menggunakan Vector Space Model untuk Mendeteksi Plagiarisme
  • T M Isa
T.M. Isa et al.,"Mengukur Tingkat Kesamaan Paragraf Menggunakan Vector Space Model untuk Mendeteksi Plagiarisme", 20013.
Perancangan Text Mining Pengelompokkan Penelitian Dosen Menggunakan Metode Shared Nearest Neighbor Dengan
  • Mushlihudin
  • L Dan Zahrotun
Mushlihudin. Dan Zahrotun, L. 2017. "Perancangan Text Mining Pengelompokkan Penelitian Dosen Menggunakan Metode Shared Nearest Neighbor Dengan". Prosiding SNATIF, 849-855.