Tentu kesal jika membuka file Excel mendapat pemberitahuan (alert) seperti ini. Padahal solusinya sederhana, cukup klik Yes pada alert itu kemudian semua akan baik-baik saja. Namun jika ada banyak file, bisa pegel dan bete duluan. Bagusnya pengetahuan soal Python dapat membantu kita menyelesaikan pekerjaan kecil tapi membosankan itu. Kita dapat membuat Python script untuk menyalin semua data pada semua file Excel itu, berapapun banyaknya, ke file baru yang bebas masalah. Cukup menggunakan kode kurang dari 50 baris ini maka kita dapat rebahan lebih lama. Simpan dengan nama perbaiki.py pada folder yang sama yang berisi file Excel yang bermasalah. Lalu pada terminal/console/command prompt jalankan script itu dengan perintah. Python script perbaiki.py akan membuat sebuah folder bernama “baru” dan di dalamnya terdapat[…]

Di bangku sekolah kita sering punya pertanyaan filosofis tentang kehidupan, seperti “apa gunanya semua rumus matematika ini, yang dibaca saja sulit, apalagi dikerjakan?”. Kali ini kita akan menjawab salah satunya, apa gunanya Teorema Bayes di dunia nyata. Bagi pembaca yang perlu sedikit pemanasan mengenai Bayes, sila membaca tulisan pertama mengenainya. Dari sana kita akan mengambil formulanya saja.     Formula di atas kita namakan Rumus A. Jika kita memiliki variabel kejadian bukan A () maka formula yang digunakan adalah. Kita namakan Rumus B untuk formula di atas. Ini adalah rangkaian tulisan yang dibagi menjadi 2, pertama (tulisan ini) kita akan membahas contoh soal (seperti di kelas), mengambil soal dari sini, biar bagaimanapun mengerjakan soal di kelas juga merupakan persoalan dunia[…]

Satu hal memicu hal lainnya. Tulisan soal Add-in Excel untuk pemula memantik rasa ingin tahu penulis, apakah vba bisa juga digunakan untuk mengambil data dari web? Mengingat kebanyakan dari kita mengolah data di MS Excel, kenapa tidak sekalian saja akuisisi data menggunakan Excel? Pencarian vba scrape web pada mesin pencari menghasilkan beberapa artikel yang menggunakan Internet Explorer (IE) dan ServerXMLHTTP untuk scraping data dari web. Namun penulis punya pengalaman tertentu (baca: kurang menyenangkan-red) dengan IE, bahkan artikel ini menyarankan menggunakan Selenium. Penulis sudah beberapa kali menggunakan Selenium dan puas dengan apa yang bisa dilakukan. Karena itu penulis cenderung menggunakannya. Selenium di VBA Excel telah dibungkus dalam sebuah library SeleniumBasic yang dapat diunduh di sini. Sayangnya orang baik itu sudah tidak[…]

Sering kita menemukan kondisi dimana formula Excel tidak mencukupi kebutuhan, atau menjadi terlalu sulit dicerna secara logika. Misal seperti tulisan ini, omong-omong blog tersebut bagus untuk pengguna MS Excel. Jika kita ingin mendapatkan kata paling kiri, formulanya masih relatif sederhana, namun untuk mendapatkan kata kedua sudah mulai bikin kepala sakit, itupun baru sebatas tiga kata, bagaimana jika lebih dari itu? Dan jangan lupakan fakta bahwa makin panjang formula maka makin sulit untuk dicerna yang mengakibatkan makin rawan salah. Memprogram untuk mengolah data, seperti kebanyakan tulisan di blog ini, mungkin terlalu rumit, dan akan sangat merepotkan jika saat akan mengolah data yang serupa itu harus menulis kode terlebih dahulu. Sayangnya lagi di pasaran tidak ada, setidaknya belum ketemu, solusi yang sesuai[…]

Setelah pengantar web scraping di tulisan pertama dan dilanjutkan dengan scraping banyak halaman penulis merasa minimal perlu satu tulisan lagi soal scrapy, bagaimana mengambil data yang hanya dapat diakses setelah melakukan login. Yang dimaksud login di sini adalah login sederhana, memasukkan username dan password. Jika terdapat captcha maka perlu pendekatan lain, misalnya menggunakan kecerdasan buatan (mudah-mudahan kita punya kesempatan untuk membahas ini di masa depan). Secara garis besar, setelah kita berhasil login maka server akan membuat sebuah sesi untuk kita, dalam sesi tersebut kita bisa mengakses layanan server tersebut. Agak teknis, sesi itu akan melibatkan session, cookie dan (kadang) token, namun dua yang pertamalah yang lebih banyak ditemui. Seringnya kita tidak perlu mengetahui secara akurat apa dan bagaimana terjadi, seperti[…]

Melanjutkan tulisan sebelumnya kita akan meningkatkan tantangan, mengambil data dari banyak halaman to infinity and beyond. Karena basangdata minim konten dan baru ada dua halaman maka kita perlu mencari web lain dengan banyak konten berhalaman-halaman. Salah satu website yang menyediakan informasi yang menarik dan memiliki banyak halaman adalah inaproc.id yang adalah portal pengadaan (barang dan jasa) pemerintah, diampu oleh LKPP (Lembaga Kebijakan Pengadaan Barang Jasa Pemerintah). Kita akan mengambil data rencana umum pengadaan di sini. Bagi yang belum/tidak pernah bersinggungan dengan pengadaan barang jasa pemerintah, halaman rencana umum pengadaan (rup) menyediakan informasi rencana pengadaan (pembelian) barang yang akan dilakukan oleh institusi pemerintah. Berdasar informasi tersebut penyedia jasa akan mengajukan penawaran kepada institusi pemerintah itu. Jadi jika kita berhasil mengambil semua[…]

Jika ingin mendapatkan bahan belajar lebih banyak, sila gunakan frasa scrapy web scraping pada mesin pencari. Dengan asumsi pembaca telah karib dengan proses instalasi library di python atau telah membaca tulisan ini maka untuk instalasi scrapy cukup mengetikkan. pip install scrapy Jaman now internet adalah sumber utama data dan informasi karenanya sering kita menemui kebutuhan mengambil data dari internet (halaman web). Solusi termudah dan paling sering dilakukan adalah copy dan paste. Namun kita, manusia, cepat capek dan bosan, melakukan copy paste >5x pasti sudah muak, apalagi jika prosedur yang dilakukan sama. Sebab itu web scraping digunakan. Web scraping seperti kita membuka halaman web, lalu menyalin bagian-bagian yang akan diambil dan paste ke file excel, berulang-ulang sampai habis semua halaman yang[…]

Sering kita perlu membaca file txt (teks) dari script Python, misalnya konfigurasi program disimpan dalam teks sederhana, untuk itu script python perlu membaca file teks tersebut. Untuk kebutuhan itu, python telah menyediakan fungsi bawaan (built in) bernama open, lebih lanjut mengenai fungsi ini silahkan merujuk ini. Misal kita memiliki file teks dengan data tahun seperti ini. 2017 2018 2019 File tersebut disimpan sebagai tahun.txt yang disimpan di /home/user/tahun.txt atau d:\tahun.txt. f = open(“/home/user/tahun.txt”, “r”) print(f.read()) f = open(“d:\\tahun.txt”, “r”) print(f.read()) Dua script tersebut akan menampilkan seperti ini. Dapat pula digunakan kode di bawah ini untuk mencapai hal yang sama. with open(“/home/user/tahun.txt”, “r”) as f: print(f.read()) Jika ingin hanya menampilkan 3 karakter pertama. with open(“/home/user/tahun.txt”, “r”) as f: print(f.read(3)) Jika tiap[…]

Diskusi statistika deskriptif selanjutnya setelah central tendency adalah mengukur variasi data. Jika pada central tendency yang diukur adalah “apa yang ada di tengah” atau “apa yang paling banyak” maka di bagian ini yang akan dinilai adalah “bagaimana tersebarnya data” atau “jarak dari satu data ke tengah” intinya soal variasi data. Ada beberapa ukuran yang digunakan: Range, Interquartile Range (IQR), Mean Absolute Deviation, Median Absolute Deviation, Variance dan Standard Deviation. Kita akan menjelajah sumber data lain yang tak kalah menarik dari data.go.id yaitu data.jakarta.go.id. Dan tak lupa, kita akan menggunakan R Console untuk mencoba konsep-konsep yang kita bahas. 1. Range Konsep ini sederhana, untuk menentukan range alias jangkauan data maka kita mengurangkan nilai tertinggi dengan nilai terendah.     Untuk mencoba[…]

Pada tulisan sebelumnya kita telah melakukan instalasi R dan sedikit (sekali) membahas mengenai statistika deskriptif. Telah pula disebutkan bahwa kata statistika dalam obrolan sehari-hari digunakan untuk menyatakan paling banyak, atau ter ter-(besar, kecil, banyak, sedikit) lainnya. Penggunaan istilah statistika tersebut mengacu pada statistika deskriptif. Kenapa? Akan kita bahas beberapa topik dalam statistika deskriptif yang sepertinya membuat orang mengasosiasikan ter-ter dengan kata statistik. Central Tendency, sesuatu tentang tengah data, metode apa yang bisa membantu kita mendeskripsikan tengah data yang kita punya. Beberapa pendekatan yang bisa dilakukan untuk mendeskripsikan tengah data kita adalah Mean, Median, Mode (modus). Mean Dalam istilah sehari-hari, rata-rata. Tambahkan seluruh nilai, bagi dengan banyaknya nilai. Sebagai contoh, kita akan menggunakan data proporsi penduduk yang memiliki ponsel di daerah[…]