Penggalian web adalah suatu kegiatan pengambilan data tertentu secara semi-terstruktur dari sebuah halaman situs web. Halaman tersebut umumnya dibangun menggunakan bahasa markup seperti HTML atau XHTML.

Biasanya teknik ini diterapkan pada sebuah bot agar bisa membuat proses yang harusnya dilakukan secara manual menjadi otomatis. Ketika kita menjumpai sebuah situs yang membatasi kuota (jatah) API (application programming interface) atau bahkan tidak menyediakan sama sekali, maka penggalian web akan sangat dibutuhkan sebagai langkah pengambilan data.

Mengikis halaman web melibatkan ekstraksi halaman web dan kemudian mengekstrak data darinya.[1] Retrieval adalah pemuatan halaman (yang dilakukan browser saat pengguna melihat halaman).[2] Dengan demikian, pemindaian web adalah komponen utama dari web scraping untuk mengekstrak halaman untuk diproses lebih lanjut.[3] Setelah ekstraksi, ekstraksi dapat dilakukan. Konten halaman dapat dianalisis, dicari, dan diformat ulang, serta datanya disalin ke dalam spreadsheet atau diunggah ke database.[4] Web scraper biasanya mengekstrak sesuatu dari sebuah halaman untuk digunakan di tempat lain untuk tujuan lain.[5] Contohnya termasuk menemukan dan menyalin nama dan nomor telepon, perusahaan dan URL atau alamat email mereka ke dalam daftar (penggalian kontak) menggunakan pemindaian web, pengenalan pola, mengumpulkan data dari media sosial dan jaringan profesional, pencarian WHOIS, dan banyak lagi.[6]

Selain mengumpulkan kontak, pengumpulan data web digunakan sebagai komponen aplikasi yang digunakan untuk pengindeksan web,[7] penambangan web[8] dan penambangan data, pemantauan perubahan harga dan perbandingan harga secara online, mengumpulkan ulasan produk (untuk memantau pesaing),[9] mengumpulkan daftar real estat, memantau data cuaca, mendeteksi perubahan situs web, penelitian, melacak keberadaan dan reputasi web, penggabungan web, dan integrasi data web.

Halaman web dibuat menggunakan bahasa markup berbasis teks (HTML dan XHTML) dan sering kali berisi banyak data yang berguna dalam bentuk teks.[10] Namun, sebagian besar halaman web dirancang untuk pengguna akhir, bukan untuk kemudahan penggunaan otomatis. Sebagai hasilnya, alat dan perangkat lunak khusus telah dikembangkan untuk memfasilitasi penguraian halaman web. Aplikasi penguraian halaman web termasuk riset pasar, perbandingan harga, pemantauan konten, dan banyak lagi. Perusahaan mengandalkan layanan penguraian halaman web untuk mengumpulkan dan memanfaatkan data ini secara efisien.


Referensi

sunting
  1. ^ "What is Web Scraping? A Complete Guide". www.fortra.com. Diakses tanggal 2025-04-01.
  2. ^ "Populating the page: how browsers work". developer.mozilla.org. Diakses tanggal 2025-04-01.
  3. ^ "Web crawling vs web scraping". www.zyte.com. Diakses tanggal 2025-04-01.
  4. ^ "3 Easy Ways to Scrape Website to Excel". www.octoparse.com. Diakses tanggal 2025-04-01.
  5. ^ "24 Web scraping". r4ds.hadley.nz. Diakses tanggal 2025-04-01.
  6. ^ "Email Scraping Tools: A Comprehensive Guide". mailwarm.io. Diakses tanggal 2025-04-01.
  7. ^ "Web Indexing". www.wix.com. Diakses tanggal 2025-04-01.
  8. ^ "Web Mining". www.geeksforgeeks.org. Diakses tanggal 2025-04-01.
  9. ^ "How to do a competitor product analysis by review monitoring". feedcheck.co. Diakses tanggal 2025-04-01.
  10. ^ "HTML Versus XHTML". www.w3schools.com. Diakses tanggal 2025-04-01.

📚 Artikel Terkait di Wikipedia

Python (bahasa pemrograman)

Komputasi ilmiah Sistem administrasi Kerangka uji Pemrosesan teks Kerangka web Web scraping Sebagian besar implementasi Python (termasuk CPython) menyertakan read–eval–print

Anna's Archive

TorrentFreak". torrentfreak.com. Diakses tanggal 2026-05-24. "Anna's Archive Scraping: Court Defers Key Questions to State Supreme Court * TorrentFreak". torrentfreak

Perplexity AI

Juni 2024). "Amazon Menyelidiki Kebingungan Atas Klaim Penyalahgunaan Scraping". Wired. Diakses tanggal 3 Juli 2024. Davis, Wes (15 Oktober 2024). "The

Data Toolbar

Data Toolbar adalah perangkat lunak tambahan untuk pengikis web yang tersedia pada peramban Internet Explorer, Firefox, dan Google Chrome. Perangkat lunak

Permainan daring

tahun . Casino kelinci Jack dirilis pada QuantumLink . Kesmai ini berkas Scraping bekerja sangat baik untuk Prajurit Stellar, mereka mencabut nomor serial

Bahasa pemrograman tujuan umum

menjadi media pengembangan aplikasi pengguna, program pengikisan konten web (web scraping), permainan digital, dan perangkat lunak umum lainnya. Bahasa markah

John Wiley & Sons

Wiley-VCH, dan Jossey-Bass. Wiley menggunakan DOI palsu untuk mencegah scraping. Pada tahun 2008, Wiley untuk dua tahun berturut-turut masuk dalam daftar

Nokogiri (pustaka)

Diakses tanggal 15 Mei 2011. Mark Watson (2009). Scripting Intelligence: Web 3.0 Information, Gathering and Processing. Springer. hlm. 22. ISBN 978-1-4302-2351-1