Menggunakan Binomial Distribution

Kemenyan sebesar lutut jika tiada dibakar manakan berbau. Tahu apa itu Binomial Distribution adalah hal yang baik, tapi ilmu yang tak diamalkan, apa gunanya?

Latar Belakang

Selama bisa memenuhi empat rukun yaitu:

  • hanya memiliki dua kemungkinan;
  • tiap hasil percobaan berprobabilitas tetap;
  • tiap percobaan hasilnya independen; dan
  • banyaknya percobaan tetap

maka kita dapat menggunakan rumus Binomial Distribution dalam berbagai skenario.

Formula

Sebagai pengingat, berikut formula Binomial Distribution.

    \[Pr(k; n, p) = Pr(X = k) = \binom{n}{k} \: p^{k} \: (1 - p)^{n - k} = \frac{n!}{k!(n - k)!} \: p^{k} \: (1 - p)^{n - k}\]

Dimana:

Pr \: = probabilitas binomial

k \: = banyaknya percobaan success

n \: = banyaknya semua percobaan

p \: = nilai probabilitas masing-masing percobaan success

X \: = variabel random yang mengikuti distribusi binomial

Untuk k \: = \: 0, 1, 2, ..., n


Penggunaan

Test Pack

Saat membahas mengenai Bayes ada bahasan mengenai penggunaan test pack berakurasi 99%, yang kurang lebih seperti di bawah ini.

Jika memilih sembarang wanita pada tahun 2016 kemudian menguji dengan test pack dan hasilnya positif, ternyata kemungkinan wanita tersebut benar-benar hamil adalah 81,12%, alih-alih 99% sesuai akurasi test pack.

Kita akan mendaur ulang studi kasus tersebut.

Tahun 2016

Menurut Kementerian Kesehatan pada tahun 2016 ada:

  • wanita sejumlah 128.716.296 jiwa; dan
  • diantaranya sejumlah 5.354.594 jiwa, 4,16% dari total jumlah wanita, hamil.

Jika disederhanakan, proporsi wanita hamil adalah 4% sedangkan 96% tidak hamil.

Sampel 1.000 Wanita

Untuk memudahkan anggap saja kita memiliki sampel sebanyak 1.000 wanita, terdiri dari 40 orang hamil dan 960 tidak hamil.

Jika menggunakan test pack dengan akurasi 99% artinya ada kemungkinan kesalahan 1%. Jika 1% tersebut dikalikan dengan 960, maka terdapat (\frac{1}{100} \times 960 = 9,6, dibulatkan ke bawah menjadi) 9 wanita tidak hamil yang salah dideteksi (False Positive).

Spreadsheet

Umumnya aplikasi spreadsheet, seperti Microsoft Excel, Google Sheets dan lainnya, memiliki formula untuk menghitung Binomial Distribution. Jika menggunakan Excel maupun Sheets, formula di bawah ini dapat digunakan.

=BINOM.DIST(k, n, p, cumulative)

Dimana:

k \: = banyaknya percobaan success

n \: = banyaknya semua percobaan

p \: = nilai probabilitas masing-masing percobaan success

cumulative \: = berisi TRUE atau FALSE, jika TRUE maka nilai kumulatif (sampai dengan) akan ditampilkan, jika FALSE maka hanya nilai probabilitas k yang ditampilkan

Tentu saja kita tetap dapat membuat sendiri formula yang menghasilkan nilai probabilitas k.

Bernoulli Trial

Karena telah dibantu spreadsheet, kita bisa dengan cepat mendapatkan nilai probabilitas untuk masing-masing percobaan sukses alias k.

Kita akan menghitung dari 960 wanita tidak hamil, berapa kemungkinan mendapatkan 0 sampai 960 wanita yang salah dideteksi sebagai hamil.

Sehingga k = 0, ..., 960, n = 960 dan p = \frac{1}{100}.

k = 0, ..., 12
k = 12, ..., 24
k = 24, ..., 36
k = 950, ..., 962

Probabilitas mendapatkan 0 wanita tidak hamil yang dideteksi hamil, sebesar 0,01%. Probabilitas mendapatkan 1 wanita sebesar 0,06%, meningkat.

Peningkatan tersebut konsisten hingga nilai k = 9. Lalu turun mulai k = 10 hingga k = 960 (jika k > n perhitungan bermasalah karena faktorial angka negatif tidak dapat diproses).

Untuk lebih memudahkan mencerna data, berikut grafik yang dihasilkan dari Bernoulli Process di atas, ditampilkan hanya sampai k = 25.

Probabilitas tertinggi, 12,8% terjadi saat k = 9. Hal tersebut memperkuat pernyataan produsen test pack bahwa terdapat kemungkinan salah sebanyak 1%, yang jika diaplikasikan pada 1.000 sampel maka ada 9 False Positive.

Probabilitas saat k > 9, yang tidak bernilai 0 (atau mendekati 0), mengamini temuan Bayes bahwa ada kemungkinan test pack tersebut menghasilkan >9 False Positive.

Probabilitas yang disediakan oleh Bayes tepatnya seperti ini.

    \[P(A \mid B)=\frac{P(B \mid A) \cdot P(A)}{P(B \mid A) \cdot P(A) + P(B \mid \sim A) \cdot P(\sim A)}\]

    \[P(Tidak \: Hamil \mid Positif)=\frac{0.01 \cdot 0.96}{0.01 \cdot 0.96 + 0.99 \cdot 0.04}\]

    \[P(Tidak \: Hamil \mid Positif)=\frac{0.0096}{0.0492}=0.19512=19.51\%\]


Jalur Dua Arah

Sebuah penyelenggara webinar memiliki data peserta dimana \frac{3}{4} diantaranya adalah laki-laki. Jika dipilih secara acak 6 peserta, berapa kemungkinan 4 diantaranya adalah laki-laki?

Jalur Langsung

Umumnya kita akan langsung menerjemahkan menjadi seperti ini.

    \[k = 4\]

    \[n = 6\]

    \[p = \frac{3}{4}\]

Sehingga.

    \[Pr(X = 4) = \frac{6!}{4!(6 - 4)!} \: (\frac{3}{4})^{4} \: (1 - \frac{3}{4})^{6 - 4}\]

    \[Pr(X = 4) = 15 \cdot \frac{81}{256} \cdot \frac{1}{16}\]

    \[Pr(X = 4) = 0.2966 = 29.66\%\]

Satu Kurang p

Kita ubah sedikit cara pandang persoalan di atas. Jika 4 dari 6 orang yang dipilih secara acak adalah laki-laki, maka 2 diantaranya adalah perempuan.

Ini memanfaatkan salah satu syarat Binomial Distribution, “banyaknya percobaan tetap”.

Lalu jika kita ubah label success menjadi mendapatkan perempuan dari 6 orang yang dipilih secara acak, maka kita memerlukan nilai p yang baru. Untungnya,

salah satu rukun Binomial Distribution adalah tiap percobaan hanya memiliki dua kemungkinan, yang diberi label success dan failure.

Sebagai akibatnya, probabilitas failure adalah 1 - p.

    \[P[success] = p\]

    \[P[failure] = q = 1 - p\]

Jika kita gunakan situasi di atas, p = \frac{3}{4} maka q = \frac{1}{4}. Nilai q inilah yang akan menjadi p yang baru. Sehingga kita dapat mendefinisikan sebagai berikut.

    \[k = 2\]

    \[n = 6\]

    \[p = \frac{1}{4}\]

Kemudian perhitungan menjadi seperti ini.

    \[Pr(X = 2) = \frac{6!}{2!(6 - 2)!} \: (\frac{1}{4})^{2} \: (1 - \frac{1}{4})^{6 - 2}\]

    \[Pr(X = 2) = 15 \cdot \frac{1}{16} \cdot \frac{81}{256}\]

    \[Pr(X = 2) = 0.2966 = 29.66\%\]

Hasilnya sama persis dengan perhitungan sebelumnya.


Referensi


Cover Photo by Priscilla Du Preez on Unsplash

Leave a Reply

Your email address will not be published.