Satu hal memicu hal lainnya. Tulisan soal Add-in Excel untuk pemula memantik rasa ingin tahu penulis, apakah vba bisa juga digunakan untuk mengambil data dari web? Mengingat kebanyakan dari kita mengolah data di MS Excel, kenapa tidak sekalian saja akuisisi data menggunakan Excel? Pencarian vba scrape web pada mesin pencari menghasilkan beberapa artikel yang menggunakan Internet Explorer (IE) dan ServerXMLHTTP untuk scraping data dari web. Namun penulis punya pengalaman tertentu (baca: kurang menyenangkan-red) dengan IE, bahkan artikel ini menyarankan menggunakan Selenium. Penulis sudah beberapa kali menggunakan Selenium dan puas dengan apa yang bisa dilakukan. Karena itu penulis cenderung menggunakannya. Selenium di VBA Excel telah dibungkus dalam sebuah library SeleniumBasic yang dapat diunduh di sini. Sayangnya orang baik itu sudah tidak[…]

Setelah pengantar web scraping di tulisan pertama dan dilanjutkan dengan scraping banyak halaman penulis merasa minimal perlu satu tulisan lagi soal scrapy, bagaimana mengambil data yang hanya dapat diakses setelah melakukan login. Yang dimaksud login di sini adalah login sederhana, memasukkan username dan password. Jika terdapat captcha maka perlu pendekatan lain, misalnya menggunakan kecerdasan buatan (mudah-mudahan kita punya kesempatan untuk membahas ini di masa depan). Secara garis besar, setelah kita berhasil login maka server akan membuat sebuah sesi untuk kita, dalam sesi tersebut kita bisa mengakses layanan server tersebut. Agak teknis, sesi itu akan melibatkan session, cookie dan (kadang) token, namun dua yang pertamalah yang lebih banyak ditemui. Seringnya kita tidak perlu mengetahui secara akurat apa dan bagaimana terjadi, seperti[…]

Melanjutkan tulisan sebelumnya kita akan meningkatkan tantangan, mengambil data dari banyak halaman to infinity and beyond. Karena basangdata minim konten dan baru ada dua halaman maka kita perlu mencari web lain dengan banyak konten berhalaman-halaman. Salah satu website yang menyediakan informasi yang menarik dan memiliki banyak halaman adalah inaproc.id yang adalah portal pengadaan (barang dan jasa) pemerintah, diampu oleh LKPP (Lembaga Kebijakan Pengadaan Barang Jasa Pemerintah). Kita akan mengambil data rencana umum pengadaan di sini. Bagi yang belum/tidak pernah bersinggungan dengan pengadaan barang jasa pemerintah, halaman rencana umum pengadaan (rup) menyediakan informasi rencana pengadaan (pembelian) barang yang akan dilakukan oleh institusi pemerintah. Berdasar informasi tersebut penyedia jasa akan mengajukan penawaran kepada institusi pemerintah itu. Jadi jika kita berhasil mengambil semua[…]

Jika ingin mendapatkan bahan belajar lebih banyak, sila gunakan frasa scrapy web scraping pada mesin pencari. Dengan asumsi pembaca telah karib dengan proses instalasi library di python atau telah membaca tulisan ini maka untuk instalasi scrapy cukup mengetikkan. pip install scrapy Jaman now internet adalah sumber utama data dan informasi karenanya sering kita menemui kebutuhan mengambil data dari internet (halaman web). Solusi termudah dan paling sering dilakukan adalah copy dan paste. Namun kita, manusia, cepat capek dan bosan, melakukan copy paste >5x pasti sudah muak, apalagi jika prosedur yang dilakukan sama. Sebab itu web scraping digunakan. Web scraping seperti kita membuka halaman web, lalu menyalin bagian-bagian yang akan diambil dan paste ke file excel, berulang-ulang sampai habis semua halaman yang[…]

Diskusi statistika deskriptif selanjutnya setelah central tendency adalah mengukur variasi data. Jika pada central tendency yang diukur adalah “apa yang ada di tengah” atau “apa yang paling banyak” maka di bagian ini yang akan dinilai adalah “bagaimana tersebarnya data” atau “jarak dari satu data ke tengah” intinya soal variasi data. Ada beberapa ukuran yang digunakan: Range, Interquartile Range (IQR), Mean Absolute Deviation, Median Absolute Deviation, Variance dan Standard Deviation. Kita akan menjelajah sumber data lain yang tak kalah menarik dari data.go.id yaitu data.jakarta.go.id. Dan tak lupa, kita akan menggunakan R Console untuk mencoba konsep-konsep yang kita bahas. 1. Range Konsep ini sederhana, untuk menentukan range alias jangkauan data maka kita mengurangkan nilai tertinggi dengan nilai terendah.     Untuk mencoba[…]

Pada tulisan sebelumnya kita telah melakukan instalasi R dan sedikit (sekali) membahas mengenai statistika deskriptif. Telah pula disebutkan bahwa kata statistika dalam obrolan sehari-hari digunakan untuk menyatakan paling banyak, atau ter ter-(besar, kecil, banyak, sedikit) lainnya. Penggunaan istilah statistika tersebut mengacu pada statistika deskriptif. Kenapa? Akan kita bahas beberapa topik dalam statistika deskriptif yang sepertinya membuat orang mengasosiasikan ter-ter dengan kata statistik. Central Tendency, sesuatu tentang tengah data, metode apa yang bisa membantu kita mendeskripsikan tengah data yang kita punya. Beberapa pendekatan yang bisa dilakukan untuk mendeskripsikan tengah data kita adalah Mean, Median, Mode (modus). Mean Dalam istilah sehari-hari, rata-rata. Tambahkan seluruh nilai, bagi dengan banyaknya nilai. Sebagai contoh, kita akan menggunakan data proporsi penduduk yang memiliki ponsel di daerah[…]

Dalam keseharian kadang kita bertemu kalimat kurang lebih seperti ini, “menurut statistik …” atau “survei membuktikan …“. Hmm, statistik itu apa, atau siapa? Kenapa seperti penting sekali pendapatnya, harus diimani. Menurut wiki, statistik adalah cabang matematika yang ngurusin data, dari mengambil, mengatur, menganalisa, menginterpretasi sampai menyajikan. Buat penulis, sih, saat mendengar orang mengatakan “statistik …” selalu bernuansa statistik = angka yang digunakan untuk menguatkan argumen yang dikatakan pembicara. Hal itu diperkuat dengan kecenderungan orang menggunakan statistik untuk memanipulasi lawan bicaranya. Karena itulah ada tulisan macam ini atau bahkan buku populer bernama how to lie with statistics. Kalau dalam game, statistik biasanya menampilkan paling banyak, gol paling banyak, kartu kuning terbanyak, jumlah hit dan lainnya yang serba terbanyak. Kembali ke halaman[…]

Judul tulisan sengaja menggunakan kata “jenis” alih-alih “tipe” untuk mengurangi kemungkinan ada yang nyasar di tulisan ini karena mengira akan membahas mengenai tipe data yang digunakan dalam pemrograman (integers, boolean, dll). Jenis data yang akan dibahas adalah yang digunakan dalam penelitian (atau skripsi). Pengetahuan mengenai jenis data akan menentukan alat analisis apa yang digunakan, karenanya menjadi penting untuk diketahui. Data dapat berupa kuantitatif dan kualitatif. Data Kuantitatif adalah data yang dapat diukur, ditulis dalam bentuk angka dan dapat dilakukan perhitungan matematika (tambah kurang kali bagi). Sederhananya, data kuantitatif adalah data angka (ini simplifikasi yang keterlaluan tapi efektif kwkwkw). Data Kualitatif tidak dapat benar-benar diukur misalnya enak tidak enaknya bubur ayam. Untuk kemudahan, ingat saja kata data kualitatif = kualitas. Dalam[…]

Jika menemukan orang yang menyatakan matematika itu mudah, segera jauhi, kemungkinan ia aneh. Kwkwkw. Tapi sungguh, matematika adalah bagian penting dalam kehidupan kita yang tidak mungkin terhindarkan. Bahkan di bagian yang menurut kita tidak berhubungan dengannya, matematika ternyata berperan penting. Seperti soalan yang akan kita bahas. Melanjutkan tulisan sebelumnya mengenai Teorema Bayes, kali ini akan dibahas bagaimana melakukan klasifikasi teks menggunakan Naive Bayes.     Untuk apa kita perlu melakukan klasifikasi teks? Klasifikasi teks adalah jamak dilakukan di era industry 4.0 ini. Kita telah menggunakan (atau merasakan manfaatnya) bahkan tanpa kita sadari. Brand (dalam bentuk apapun, misal tokoh politik) menggunakan klasifikasi teks untuk menjaring opini publik, misal suka atau tidak suka dengan produk (atau kebijakan atau tema kampanye). Kantor berita[…]

Tulisan ini adalah pekerjaan rumah yang tertunda lebih dari setahun. Semua bermula dari sebuah rumus dalam tugas akhir kuliah.     Atau dalam dokumen yang sama (baca: laporan tugas akhir) disimplifikasi menjadi.     Sebaris rumus di atas adalah teorema Bayes yang dalam tugas akhir saya gunakan untuk mengelompokkan (klasifikasi) teks dari Twitter. Sebenernya diminta untuk kasih contoh perhitungan sederhana oleh dosen penguji proposal. Untungnya Pak Dosen ga menguji laporan akhir, jadi saya lolos tanpa tahu bagaimana cara menghitungnya deh, kwkwkw. Beberapa hari ini entah kenapa berurusan lagi dengan Teori Bayes, karena itu sekalian saja dituliskan hasil perjalanan itu sebagai bentuk ‘mengumpulkan tugas’ dan pasti berguna sebagai future reference. Versi wikipedia untuk rumus Bayes adalah adalah berikut (posisi Prior dan[…]