Data tidak pernah hadir dalam bentuk yang kita impikan, selalu begitu. Bisa jadi karena harapan kita yang keliru. Kode Lima Detik Data di Dunia Nyata…
Modern Problems Require Modern Solutions tampaknya menjadi kutipan favorit di blog ini. Kali ini “modern solution” yang diadvokasi adalah R dan RStudio sebagai alat bantu…
Tiap kelompok/subset angka (misal data penjualan per toko cabang, data pengajuan klaim asuransi per tenaga pemasar) umumnya memiliki duplikasi angka seragam. Sehingga bila terdapat kelompok…
Perlu mencari duplikat data namun data berupa teks yang tidak sama persis, seperti kata Apel dan Apple? Atau perlu melakukan penggabungan dua dataframe namun nilai…
Kegunaan fungsi head pada pandas adalah untuk mendapatkan n baris data teratas. Sebaliknya, fungsi tail digunakan saat kita perlu mengambil n baris terakhir dari data.…
Data bertebaran di internet, dalam bentuk kadang rapi seperti html atau dalam bentuk yang lebih mudah ditangani, json. Pandas menyediakan fungsi read_json yang dapat digunakan…
Kita bisa membaca berkas csv, excel, database dan bahkan pdf. Namun jaman now sumber data tak berbatas adalah internet. Dan salah satu bentuk data di…
Pemilihan sampel adalah kita! Dalam keseharian kita tidak lepas dari proses memilih sampel bahkan pada kegiatan yang paling sederhana seperti saat mengomentari jualan orang, “kok…
salah satu dari dua transaksi berbeda, namun mirip, sangat mungkin merupakan kesalahan atau berpotensi merupakan fraud. Menggunakan The Same-Same-Different Test (The SSD Test) kita dapat…
The Same-Same-Same Test (The S3 Test) berguna untuk mengidentifikasi duplikasi data yang berpotensi terjadi karena kesalahan maupun fraud. Kode Lima Detik The Same-Same-Same Test Duplikasi…