Setelah pengantar web scraping di tulisan pertama dan dilanjutkan dengan scraping banyak halaman penulis merasa minimal perlu satu tulisan lagi soal scrapy, bagaimana mengambil data yang hanya dapat diakses setelah melakukan login. Yang dimaksud login di sini adalah login sederhana, memasukkan username dan password. Jika terdapat captcha maka perlu pendekatan lain, misalnya menggunakan kecerdasan buatan (mudah-mudahan kita punya kesempatan untuk membahas ini di masa depan). Secara garis besar, setelah kita berhasil login maka server akan membuat sebuah sesi untuk kita, dalam sesi tersebut kita bisa mengakses layanan server tersebut. Agak teknis, sesi itu akan melibatkan session, cookie dan (kadang) token, namun dua yang pertamalah yang lebih banyak ditemui. Seringnya kita tidak perlu mengetahui secara akurat apa dan bagaimana terjadi, seperti[…]

Melanjutkan tulisan sebelumnya kita akan meningkatkan tantangan, mengambil data dari banyak halaman to infinity and beyond. Karena basangdata minim konten dan baru ada dua halaman maka kita perlu mencari web lain dengan banyak konten berhalaman-halaman. Salah satu website yang menyediakan informasi yang menarik dan memiliki banyak halaman adalah inaproc.id yang adalah portal pengadaan (barang dan jasa) pemerintah, diampu oleh LKPP (Lembaga Kebijakan Pengadaan Barang Jasa Pemerintah). Kita akan mengambil data rencana umum pengadaan di sini. Bagi yang belum/tidak pernah bersinggungan dengan pengadaan barang jasa pemerintah, halaman rencana umum pengadaan (rup) menyediakan informasi rencana pengadaan (pembelian) barang yang akan dilakukan oleh institusi pemerintah. Berdasar informasi tersebut penyedia jasa akan mengajukan penawaran kepada institusi pemerintah itu. Jadi jika kita berhasil mengambil semua[…]

Jika ingin mendapatkan bahan belajar lebih banyak, sila gunakan frasa scrapy web scraping pada mesin pencari. Dengan asumsi pembaca telah karib dengan proses instalasi library di python atau telah membaca tulisan ini maka untuk instalasi scrapy cukup mengetikkan. pip install scrapy Jaman now internet adalah sumber utama data dan informasi karenanya sering kita menemui kebutuhan mengambil data dari internet (halaman web). Solusi termudah dan paling sering dilakukan adalah copy dan paste. Namun kita, manusia, cepat capek dan bosan, melakukan copy paste >5x pasti sudah muak, apalagi jika prosedur yang dilakukan sama. Sebab itu web scraping digunakan. Web scraping seperti kita membuka halaman web, lalu menyalin bagian-bagian yang akan diambil dan paste ke file excel, berulang-ulang sampai habis semua halaman yang[…]