Ước lượng tham số của tổng thể
Giả sử biến X của tổng thể có một phân phối nào đó nhưng chưa biết tham số, thí dụ phân phối Poission nhưng chưa biết μ, phân phối nhị thức nhưng chưa biết p, phân phối chuẩn nhưng chưa biết μ và σ2 ...
Sau khi lấy mẫu và tính một số thống kê ta phải dùng các thống kê để ước lượng các tham số của tổng thể. Có hai cách tiếp cận vấn để này:
Ước lượng điểm: Đây là cách tiếp cận rất quan trọng để nghiên cứu lí thuyết ước lượng. Giả sử tổng thể có tham số Θ , sau khi khảo sát mẫu ta tính được các thống kê, dựa vào các thống kê để đưa ra một số T thay thế Θ gọi là ước lượng điểm của Θ. Có nhiều ước lượng T cho tham số Θ, do đó phải lựa chọn dựa trên rất nhiều tiêu chuẩn như:
- Không chệch: hiểu một cách đơn giản là ước lượng không chứa sai số hộ thống, tức là không thiên về phía đưa ra các giá trị bé hơn Θ hoặc thiên vể việc đưa ra các giá trị lớn hơn Θ.
- Hiệu quả: trong các ước lượng có cùng tính chất thì chọn ước lượng có phương sai nhỏ nhất.
- Vững: khi tăng dung lượng mẫu n lên vô hạn thì ước lượng sẽ dần đến Θ (dần đến theo xác suất).
- Chắc hay bền: không thay đổi nhiều khi trong mẫu có các số liệu quá nhỏ hay quá lớn, hoặc số liệu thu được không thoả mãn giả thiết phân phối chuẩn.
Nếu không thể chọn được ước lượng tốt trên mọi phương diện thì, tuỳ theo mục đích, có thể chọn ước lượng thoả mãn một số tiêu chuẩn trong rất nhiều tiêu chuẩn nêu ra. Thí dụ khi có phân phối chuẩn N(μ, σ2) thì ước lượng tốt trên nhiều mặt là trung bình cộng và phương sai mẫu s2.
Khi có phân phối nhị thức B(n, p) thì ước lượng tốt của tham số p là tần suất.
Khi có phân phối Poission thì ước lượng tốt của tham số μ là trung bình cộng .
Ước lượng khoảng: Đây là cách tiếp cận có nhiều ứng dụng trong các ngành khoa học đòi hỏi phải thường xuyên xử lí số liệu như sinh học, y học, hoá học, kinh tế,.. Theo cách tiếp cận này sau khi tính các thống kê của mẫu quan sát ta đưa ra khoảng [α, β] chứa tham số Θ. Cận dưới α và cận trên β tính theo một quy tắc cụ thể dựa trên các thống kê và dựa trên mức tin cậy P.
Sau khi chọn mẫu ta đưa ra khoảng tin cậy [α, β], nếu Θ ở trong [α, β] thì khoảng tin cậy đưa ra đúng, nếu 0 ở ngoài khoảng [a, p] thì khoảng tin cậy đưa ra sai. Như vậy mỗi khoảng tin cậy chỉ có thể đúng hoặc sai, xác suất đúng là P, xác suất sai là α = 1 - P, hiểu đơn giản là nếu tính khoảng tin cậy theo quy tắc đã đưa ra thì trung bình trong 100 trường hợp P *100 trường hợp có khoảng tin cậy đúng, tức là chứa tham số Θ.
Để xây dựng quy tắc tính khoảng tin cậy phải nghiên cứu sự thay đổi của trung bình cộng và phương sai s2, coi đó là các biến ngẫu nhiên phụ thuộc vào mẫu chọn ra. Không đi sâu vào lí thuyết, ta đưa ra quy tắc ước lượng tham số cho ba trường hợp sau:
Ước lượng kì vọng μ, của phân phôi chuẩn khi biết phương sai σ2
Các bước cần làm để ước lượng μ
+ Chọn mẫu dung lượng n, tính trung bình cộng . Chọn mức tin cậy P.
(α = 1 - P gọi là mức sai cho phép hay mức ý nghĩa)
+ Dùng bảng 2 tính giá trị tới hạn u, tức là giá trị u sao cho Θ(u) = 1 -
+ Ước lượng m theo bất đẳng thức kép
(5.3)
Thí dụ 1
Cân 36 con gà được trọng lượng trung bình x = 2,6kg. Hãy ước lượng kì vọng μ. nếu trọng lượng gà phân phối chuẩn N(μ, 0,09).
Ở mức tin cậy P = 0,95; u(0,025) = 1,96; σ = 0,3.
2,50 ≤ μ ≤ 2,70.
Ở mức tin cậy P = 0,99; u(0,005) = 2,575.
2,47kg ≤ μ ≤ 2,73kg.
Thí dụ 2
Phân tích vitamin C của 17 mẫu được = 20 mg. Ước lượng kì vọng μ nếu lượng vitamin phân phối chuẩn N(μ, σ2) với σ = 3,98 mg.
Ở mức tin cậy P = 0,95; u(0,025) = 1,96.
18,11mg ≤ μ ≤ 21,89mg.
Ước lượng kì vọng của phân phối chuẩn khi không biết phương sai σ2
Các bước cần làm để ước lượng μ (với mức tin cậy P = 1 - α)
+ Chọn mẫu dung lượng n, tính trung bình cộng , tính phương sai mẫu s2
+ Dùng bảng 3, tính giá trị tới hạn , tức là giá trị t ở cột α dòng n - 1
Ước lượng theo bất đẳng thức kép
(5.4)
Thí dụ 3
Để ước lượng năng suất một giống ngô, người ta theo dõi 25 mảnh ruộng.
Sau khi thu hoạch được = 10,6; s = 2,082 (đơn vị tạ/ha). Giả thiết năng suất ngô phân phối chuẩn. Mức tin cậy P = 0,95.
Tra cứu bảng 3 được t(0,025,24) = 2,061; P = 0,95
9,74 tạ≤μ≤11,46 tạ
Thí dụ 4
Một xưởng làm bánh theo dõi lượng bột dùng hàng ngày trong 14 ngày được = 17,3 kg; s = 4,5 kg, giả thiết lượng bột dùng hàng ngày phân phối chuẩn. Từ đó có ước lượng về lượng bột trung bình μ ở mức tin cậy P = 0,99.
Tra cứu bảng 3, t(0,005,13) = 3,012
17,3-3,0124,514≤μ≤17,3 +3,0124,514
13,68 kg≤μ≤20,92 kg.
Ước lượng xác suất p của phân phối nhị thức:
Một tổng thể gồm 2 loại cá thể A và với số lượng rất lớn, tỉ lộ loại A là p (chưa biết). Lấy ngẫu nhiên một cá thể, có thể coi xác suất được cá thể loại A là p.
Lấy ngẫu nhiên n cá thể, trong đó có m cá thể loại A.
Nếu n nhỏ thì có các bảng tính sẵn để ước lượng p căn cứ vào n và m.
Nếu n lớn (lí thuyết n > 30 nhưng thực tế chỉ nên dùng khi n > 100) thì coi m như biến ngẫu nhiên X phân phối nhị thức B(n, p), sau đó dựa trên việc tính gần đúng phân phối nhị thức bằng phân phối chuẩn có kì vọng np và phương sai npq, ta tìm được quy tắc thực hành sau:
+ Lấy mẫu dung lượng n, đếm số cá thể loại A, gọi là tần số m, tính tần suất f =
Dùng bảng 2 tính giá trị tới hạn u sau đó ước lượng p theo bất đảng thức kép:
Thí dụ 5
Trồng 100 cây có 75 cây sống, ước lượng xác suất sống p khi trồng cây với P = 0,95.
f = = 0,75; u(0,025) = 1,96
Thí dụ 6
Để biết tỉ lộ người tiêu dùng không thích một loại sản phẩm mới đưa ra thị trường người ta hỏi ý kiến 344 người và có 83 người cho biết là không thích sản phẩm đó.
n = 344; m = 83; f = = 0,241; u(0,05) = 1,645.
Chọn mức tin cậy p = 0,90 có ước lượng của tỉ lệ p
.
Tính dung lượng mẫu khi ước lượng kì vọng n của phân phối chuẩn
Theo công thức (5.3) chiều dài khoảng ước lượng là , nửa chiều dài L = .
Nếu muốn ước lượng đạt độ chính xác thì phải lấy , từ đó có bất đẳng thức:
Thí dụ 7
Đo chiều dài X (đơn vị cm). Giả thiết X phân phối chuẩn với = 1 8cm. Phải lấy mẫu có dung lượng bao nhiêu để ước lượng của kì vọng có độ chính xác 0,5cm.
Chọn P = 0,99; = 1,8; = 0,5; = 1 - 0,99 = 0,01; u(0,005) = 2,575.
n85,93
Vậy phải lấy mẫu cỡ n86.
Tính dung lượng mẫu khi ước lượng xác suất p của phân phôi nhị thức:
Theo công thức (5.4) nửa chiều dài khoảng tin cậy L =
phải lấy nhưng vì k chưa biết nên dùng bất đẳng thức k( 1 - k) < từ đó có
.
Thí dụ 8
Một xí nghiệp muốn ước lượng tỉ lệ p số người tán thành một kế hoạch sản xuất mới. Để tỉ lệ tìm ra có độ chính xác = 0,06 ở mức P = 0,95 phải thăm dò bao nhiêu người?
P = 0,95; = 0,05; u(0,025) = 1,96; = 266,78.
Như vậy phải thăm dò n267 người.