Toán tin vuotlen.com

Tổng thể và mẫu quan sát

Xét một đám đông gồm rất nhiều cá thể, đứng về lí thuyết thì coi như có vô số cá thể, đám đông này phải thuần nhất theo nghĩa đây là một đám đông có cùng một nguồn gốc, cùng điều kiện ra đời, sống trong cùng một môi trường, sự khác nhau giữa các cá thể là sự khác nhau tự nhiên, ngẫu nhiên không thể tránh được giữa các cá thể của một đám đông. Ta gọi một đám đông như thế là một tổng thể. .Giả thiết khi khảo sát một tính trạng (một đặc tính sinh học, một chỉ số, một số đo,...) trên một cá thể của tổng thể ta được một biến ngẫu nhiên X, biến này có thể là:

- Biến định tính chỉ có một trong 2 kết quả (quy ước là có và không, hay 1 và 0) như giống đực hay giống cái; có ra hoa hay không ra hoa; mắc bệnh hay không mắc bệnh.

- Biến định tính gồm một số loại hay lớp như màu sắc: xanh, đỏ, tím vàng...;

Chế độ tưới: tưới ít, tưới vừa, tưới nhiễu; Loại đất: cát, sét...

- Biến có thể dùng số thứ tự để ghi nhận các kết quả từ thấp lên cao như điểm thi: 0, 1, 2,..., 10; Cấp bệnh: cấp 1, 2, ..., 7.

- Biến rời rạc như số cây sống khi trồng 100 cây; số trứng nở khi ấp 12 quả trứng; số sản phẩm hỏng trong lô 5000 sản phẩm;

- Biến liên tục như chiều cao cây; trọng lượng một con gà; chiều dài một con cá.

Tuỳ theo biến ta khảo sát thuộc loại nào và dựa vào yêu cầu nghiên cứu mà đặt ra các giả thiết về tổng thể.

Có rất nhiều bài toán trong nghiên cứu được đưa về giả thiết X có phân phối đã biết nhưng còn chứa một vài tham số mà ta cần ước lượng, thí dụ khi ấp trứng ta giả thiết số trứng nở X trong mỗi ổ gồm n quả phân phối nhị thức B(n, p), xác suất trứng nở p chính là tham số chưa biết. Đo chiều cao X của học sinh nam, lứa tuổi 16 ở một vùng, X phân phối chuẩn N(μ, σ2) với hai tham số chưa biết: trung bình μ và phương sai σ2. Số chai vỡ X khi vận chuyển rượu phân phối Poission với tham số μ chưa biết. Thời gian sống của bóng đèn phân phối chuẩn N(μ, σ2) với hai tham số chưa biết μ và σ2. Trong một đợt cúm một người có thể bị cúm hoặc không, xác suất bị cúm p là tham số chưa biết...

Nếu ta khảo sát đồng thời nhiều đặc tính thì được nhiều biến ngẫu nhiên đồng thời và lúc đó sẽ có nhiều tham số cần ước lượng thí dụ hệ số tương quan, hiệp phương sai,...

Như vậy khi khảo sát tổng thể ta giả thiết biến ngẫu nhiên (hoặc hệ nhiều biến ngẫu nhiên) có một phân phối nào đó có chứa một vài tham số gọi là tham số của tổng thể, các tham số này thường được kí hiệu bằng các chữ Hy lạp μ, σ, ρ ... Để có được các hiểu biết về tổng thể và cụ thể là về các tham số này ta phải lấy ngẫu nhiên một số cá thể ra xem xét, số cá thể đó họp thành một mẫu quan sát, hay gọi tắt là một mẫu. Khi xem xét mẫu phải xử lí các dữ liệu thu được rồi đưa ra kết luận chung cho tổng thể, các kết luận này được gọi là các kết luận thống kê.

Mẫu quan sát chỉ bao gồm một nhóm nhỏ của tổng thể, không thể phản ánh đầy đủ tổng thể cho nên mặc dù cách chọn mẫu đúng đắn, không sai lệch có hệ thống, phương pháp xử lí chính xác cũng không thể loại bỏ những sai lệch so với tổng thể, do đó không bao giờ các kết luận thống kê có thể đúng 100%.

Để dễ suy luận và so sánh, người ta thường định ra một xác suất để kết luận thống kê đúng khi áp dụng cho tổng thể, xác suất đó được gọi là mức tin cậy của kết luận, thường kí hiệu là pP, thí dụ P = 0,95 thường gọi là mức tin cậy 1 (đánh dấu *) có nghĩa là kết luận thống kê đưa ra trung bình chỉ đúng 95 trên 100 trường hợp, P = 0,99 thường gọi là mức 2 (đánh dấu **) có nghĩa là kết luận thống kê đưa ra trung bình chỉ đúng 99 trên 100 trường hợp, mức P = 0,999 là mức 3 (đánh dấu ***). Cũng có khi người ta dùng số α = 1 - P gọi là mức sai cho phép hay mức ý nghĩa.

Thí dụ P = 0,95 thì α = 1 - 0,95 = 0,05 (mức 1) có nghĩa là cho phép kết luận thống kê sai trung bình 5 trên 100 trường hợp khi áp dụng vào tổng thể.