UAS INFORMATION RETRIVAL
MARET 2013
ERESHA 42 SERANG
AGHY GILAR PRATAMA
==========================================================================
SOAL DAN JAWABAN
1.
Metode
/ Algoritma apa saja yang digunakan untuk melakukan IR?
Ø Metode Pencocokan ((bolean) merupakan model
IR yang merepresentasikan dokumen dan query
dalam bentuk vektor dimensional
Ø Algoritman Web-crawler merupakan metode atau proses pengambilan
dokumen dari sebuah Web untuk dilakukan indexsi sehingga mendukung kinerja
mesin pencari.
Ø Algoritma Ranking merupakan
algoritma yangmemberikan informasi kepada pengguna mesin pencari web mana saja
yang paking banyak dikunjungi
Ø Algoritma Clustering merupakan
proses pengelompokan setiap web yang kita cari di mesin pencari
2.
Bagaimana
perbedaan cara kerja Precision versus Recall, berikan contohnya :
Precision
merupakan presntase jumlah dokumen
yang ditemukan dan dianggap benar atau relevan untuk kebutuhan si pencari
informasi.
Rumusnya : Jumlah dokumen
relevan yang ditemukan
Jumlah dokumen yang ditemukan
Recall
merupakan persentase jumlah dokumen
yang ditemukan kembali oleh mesin pencarian di sistem IR
Rumusnya : Jumlah dokumen
relevan yang ditemukan
Jumlah dokumen relevan
didalam koleksi/ index
Kedua ukuran diatas biasanya diberi
nilai dalam bentuk presntase 1 sampai 100% sebuah sistem informasi akan
dianggap baik jika tingkat recall dan precisionnya tinggi.
Contoh
Recall dan Precision dengan Matching Exact:
Ø Koleksi dari 10.000 dokumen, 50 pada
topik yang spesifik
Ø Pencarian Ideal menemukan 50 dokumen
dan menolak yang lain.
Ø Pencarian aktual mengidentifikasi 25
dokumen, 20 relevan tapi 5 berada di topik lain
Ø Presisi: 20/25 = 0,8 (80% hits yang
relevan)
Ø Recall: 20/50 = 0,4 (40% dari yang
relevan ditemukan)
Mengukur
Presisi dan Recall:
Presisi mudah untuk mengukur:
Ø User melihat setiap dokumen yang
diidentifikasi dan memutuskan apakah itu relevan.
Ø Pada contoh, hanya 25 dokumen yang
ditemukan perlu untuk diperiksa.
Recall sulit untuk mengukur:
Ø Untuk mengetahui semua item yang
relevan, User harus melihat seluruh koleksi dokumen dan melihat setiap objek
untuk memutuskan apakah itu sesuai dengan kriteria.
Ø Dalam contoh, 10.000 dokumen semuanya
harus diperiksa.
3.
Jelaskan
Algoritma Web-Crawler yang sederhana, berikan contohnya.
Web crawler merupakan program komputer
yang mengunjungi atau pencarian ke situs situs di internet, secara periodik
& sistematis tergantung kepada aturan yang sudah ditentukan. Biasanya
dikenal dengan sebutan automatic
indexer / web spider.Penting sekali bagi website untuk mempersiapkan
diri ketika sang spider menjadi
tamu mengunjungi situs anda, sehingga hasil pencatatan tentang situs juga
memuaskan, yang tentu berdampak baik bagi nilai situs di mata mesin
pencari/Search Engine. Program Web Crawler yang dimiliki oleh situs mesin
pencari, membutuhkan data dari situs yang ada, dimana proses pengumpulan atau
pencarian (crawling/indexing) tidak
tentu dan tergantung sekali oleh banyak faktor yang sudah ditentukan melalui Algoritma.
Berikut
Algoritma Web Crawler :
Ø Breadth-First
Algoritma ini melakukan pencarian
secara melebar yang mengunjungi simpul ngunjungi suatu simpul kemudian
mengunjungi semua simpul yang bertetangga dengan simpul tersebut terlebih
dahulu. Selanjutnya, simpul yang belum dikunjungi dan bertetangga dengan simpul-simpul
yang tadi dikunjungi, demikian seterusnya.
Ø Best-First
Best-First merupakan sebuah metode
yang membangkitkan simpul dari simpul sebelumnya. Best-first memilih simpul
baru yang memiliki biaya terkecil diantara semua leaf nodes
(simpul-simpul pada level terdalam) yang pernah dibangkitkan
Ø PageRank,
Adalah sebuah algoritma yang telah dipatenkan yang berfungsi
menentukan situs web mana yang lebih penting/popule
Ø Shark-Search,
Suatu algoritma baru, yang disebut “Algoritma Shark-Search“, algoritma
ini sementara menggunakan metafora sederhana yang sama, mengarah pada penemuan
informasi yang relevan lebih dalam waktu eksplorasi yang sama.
Ø InfoSpiders.
infoSpiders bekerja berdasarkan
prosedur Algoritma yang telah ditentukan oleh masing-masing search engine,
mereka akan melakukan penilaian terhadap web tersebut berdasarkan faktor
algoritma sehingga bisa memunculkan web mana yang paling tinggi nilai
relevansinya pada informasi yang kita inginkan.
Contohnya
Kita ingin mencari informasi Aghy Gp
di google, maka dengan sekejap SPIDER-nya google akan mensearch kesemua web di
dunia ini yang mempunyai kata Aghy Gp dengan software mereka.
Bila dimisalkan kita
mencari kata Aghy Gp di google maka muncul banyak web yang menampilkan kata
Aghy Gp, tetapi bagai mana kita dapat memilih mana yang paling tepat untuk
pencarian yang kita maksudkan, oleh karena itu Page Rank dapat menujukan web
mana yng paling banyak dicari. Sehingga info spider dan page rank saling
berhubungan untuk menjalankan prosesn Web Crawler.
Maka setiap Page Rank ada
nilai relevansinya dan itu ditentukan oleh beberapa faktor, antara lain:
1. Frekuensi dan lokasi kata kunci dalam Halaman Web
Jika
kata kunci hanya muncul sekali di dalam badan halaman, web tersebut akan
menerima skor yang rendah untuk kata kunci tersebut.
2. Berapa lama web telah ada
Orang-orang
membuat halaman web baru setiap hari, dan tidak semua dari mereka menunggu
dekat lama. Google menghargai web dengan waktu lebih lama.
3. Jumlah halaman Web lainnya yang memiliki link ke
halaman yang bersangkutan
Google
melihat berapa banyak halaman Web link ke situs tertentu untuk menentukan
relevansinya. Link ini termasuk link keluar atau link kedalam. Jadi semakin
banyak link yang ada pada halaman tersebut (yang pasti link yang sesuai dengan
informasi yang kita mau) akan mempunyai nilai besar.