Phân phối nhị thức (Binomial Distribution)
Phân phối nhị thức có nhiều ứng dụng trong các lĩnh vực khác nhau, đặc biệt là trong thống kê và khoa học dữ liệu. Một số ứng dụng cụ thể bao gồm:
- Kiểm định chất lượng: Đánh giá tỷ lệ sản phẩm lỗi trong một lô hàng.
- Thử nghiệm lâm sàng: Xác suất bệnh nhân đáp ứng với một phương pháp điều trị mới.
- Nghiên cứu xã hội: Khảo sát tỷ lệ người ủng hộ một chính sách nào đó trong một mẫu dân số.
- Khoa học dữ liệu và học máy: Phân tích dữ liệu có nhãn dạng nhị phân.
Biến ngẫu nhiên X phân phối nhị thức nếu bảng phân phối có dạng:
| X | 0 | 1 | ... | k | ... | n |
| P | p0 | p1 | ... | pk | ... | pn |
pk = p(X=k) = Cknpkqn-k
Kỳ vọng: M(X) = np
Phương sai: var(X) = npq
Giá trị có xác suất lớn nhất ModX là số nguyên thoả mãn bất đẳng thức kép:
np - q ModX np + p
Mode (tần số xuất hiện lớn nhất) là một thống kê mô tả thể hiện giá trị xuất hiện nhiều nhất trong một tập dữ liệu hoặc phân phối xác suất.
Phân phối nhị thức gắn liên với việc lặp lại n lần một phép thử có hai sự kiện đối lập (thành công và thất bại) với X là số lần thành công. Lặp ở đáy có nghĩa là dãy phép thử được tiến hành trong cùng điều kiện và độc lập với nhau. Phân phối nhị thức thường kí hiệu là B(n, p).
Thí dụ 1
Gia đình có 2 con, xác suất sinh con trai là 0,5. Coi các lần sinh là các phép thử độc lập, số con trai X phân phối B(2, 0,5) với p = ; q = ; n = 2.
| X | 0 | 1 | 2 |
| P |
M(X) = 1; var(X) = ; ModX = 1.
Thí dụ 2
Gieo 4 hạt đậu, xác suất để một hạt cho cây ra hoa vàng là 0,75, ra hoa trắng là 0,25. Số cây đậu ra hoa vàng X phân phối nhị thức B(4; 0,75).
| X | 0 | 1 | 2 | 3 | 4 |
| P | 0,254 | 4.0,25.0,753 | 6.0,752.0,252 | 4.0,753.0,25 | 0,754 |
M(X) = 4. 0,75 = 3; var(X) = 4. 0,75. 0,25 = 0,75; ModX = 3.
- Số cây ra hoa vàng là biến ngẫu nhiên X có giá trị mode là 3, tức là khả năng có 3 cây ra hoa vàng là cao nhất.
- Điều này có ý nghĩa rằng trong quá trình gieo 4 hạt đậu, số lượng cây có hoa vàng phổ biến nhất sẽ là 3.