Pengindeksan Manual Vs Otomatis [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

Pengindeksan Manual vs Otomatis  Pengindeksan secara manual (dilakukan oleh manusia)  Pengindeks menentukan kata kunci yang diberikan kepada suatu dokumen berdasarkan perbendaharaan kata yang terkontrol (controlled vocabulary)  Biaya mahal  Pengindeksan secara otomatis  Program pengindeks menentukan kata atau frase tertentu dari teks pada dokumen  Prosesnya cepat Tahap pengindeksan 1. Lihat dokumen untuk mengenali strukturnya  Mis. Judul, tanggal, dll. 2. Tokenisasi suatu tahap pemrosesan di mana teks input dibagi menjadi unit-unit yang disebut token yg merupakan suatu kata atau suatu angka atau suatu tanda baca. 3. Pembuangan stopwords daftar kata yg umum (kata yang mempunyai fungsi tapi tidak mempunyai arti) mis.: dan, atau, sebuah, yang Konsep tokenisasi  Hilangkan karakter yang tidak penting / tandatanda  (mis. HTML tags, tanda baca, karakter khusus), huruf besar, nomor  Potong menjadi token  Bahasa seperti non-latin perlu segmentasi  Query dan dokumen perlu dinormalisasi ke bentuk yang sama 4. Proses pemotongan imbuhan (stemming) : perubahan kata berimbuhan menjadi kata dasar 5. Pembobotan kata Kata yang penting seharusnya diberi bobot yang lebih berat 6. Pembuatan indeks TF TF . IDF Term Discrimination Model 2 Poisson Model Language Model BM25 Struktur dari berkas inverted terdiri dari: . Vocabulary (perbendaharaan kata): adalah set dari semua kata-kata yang berbeda pada teks



2. Occurrences (kemunculan): daftar yang berisi semua info yang perlu dari setiap kata pada perbendaharaan kata (posisi kata / karakter, frekuensi, dokumen di mana kata tsb. muncul, dsb.)