Minggu, 10 April 2011

Web Mining

Pengertian

Web mining adalah ekstraksi pola-pola penting dan bermanfaat namun tersimpan secara implisit pada kumpulan data yang relatif besar pada layanan world wide web. Web mining teridiri atas tiga bagian yaitu: web content mining, web structure mining, dan web usage mining.

Web content mining adalah suatu proses otomatis untuk menemukan informasi yang berguna dari dokumen atau data. Pada prinsipnya teknik ini mengekstraksi kata kunci yang terkandung pada dokumen. Isi data web antara lain dapat berupa teks, citra, audio, video, metadata, dan hyperlink. Ada dua strategi yang umum digunakan: pertama langsung melakukan mining terhadap data, dan kedua melakukan pencarian serta mengimprove hasil pencarian seperti layaknya search engine.

Web struncture mining dikenal juga sebagai web log mining adalah teknik yang digunakan untuk menemukan struktur link dari hyperlink dan membangun rangkuman website dan halaman web. Salah satu manfaatnya adlah untuk menentukan pagerank pada suatu halaman web.


Web usage mining adalah teknik untuk mengenali perilaku pelanggan dan struktur web melalui informasi yang diperoleh dari log, click stream, cookies, dan query. Berbagai tool yang sudah ada antara lain WebLogMiner yang melakukan mining terhadap data log. Teknik yang lebih canggih digunakan untuk melakukan OLAP. Manfaat web usage mining adalah untuk kustomosasi halaman berdasarkan profil pengguna, menentukan ketertarikan pelanggan terhadap produk tertentu, dan menentukan target market yang sesuai.

Tahapan Pada Web Mining

tahapan pada web mining dibagi menjadi tiga kelompok yaitu preprocess, process, dan, post process. Tahapan preprocess meliputi data cleaning, transaction identification, integration, dan transformation. Pada tahap process diterapkan sejumlah formulasi statistik antara lain untuk mengurangi jumlah atribut dengan cara membuang atribut yang tidak berpengaruh (information gain). Pada tahap ini dapat juga dilakukan teknik clustering, asosiasi, dan klasifikasi. Pada tahap post processing dilakukan analisis lebih lanjut untuk mengolah hasil mining pada tahapan sebelumnya. Hal ini perlu dilakukan sebab sering sekali hasil yang diperoleh pada tahap process tidak memberikan sesuatu yang dapat digunakan secara langsung, sehingga diperlukan teknik lainnya seperti visualisasi grafik dan analisis statistik lainnya.

Tidak ada komentar:

Posting Komentar