Các số đặc trưng của mẫu
Giả sử chúng ta muốn khảo sát một biến ngẫu nhiên X. Sau khi lấy mẫu gồm n cá thể, ta ghi lại các giá trị của X trên từng cá thể: x1, x2, ... , xn, các số liệu này gọi là số liệu gốc. Có thể để nguyên số liệu gốc để xử lí nhưng khi n khá lớn thì thường sắp xếp lại dưới dạng hai cột, một cột ghi giá trị xi, một cột ghi số lần gặp tức là tần số mi, nếu n quá lớn thì thường dùng cách chia số liệu ra khoảng 25 - 30 lớp sau đó lấy điểm giữa làm đại diện cho lớp. Tiếp theo là dùng đồ thị để minh hoạ các số liệu.
Thí dụ 1. Năng suất tại 365 điểm trồng lúa của một huyện.
|
Năng suất (tạ/ha) |
Số điểm (mi) |
|
25 30 35 40 45 50 55 |
19 38 74 106 85 30 13 |
Thí dụ 2. Chiều cao 300 em học sinh lứa tuổi 12 ở một vùng.
|
Chiều cao (cm) |
Điểm giữa |
Số em (mi) |
|
117,5 -122,5 122,5 - 127,5 127,5 - 132,5 132,5 - 137,5 137,5 - 142,5 142,5 - 147,5 147,5 - 152,5 |
120 125 130 135 140 145 150 |
9 33 74 93 64 21 6 |
Sau khi sắp xếp thường tính một số số đặc trưng của mẫu gọi chung là các thống kê như: trung bình cộng, trung bình nhân, trung vị, mod, phương sai mẫu, độ lệch chuẩn, độ nhọn, độ nghiêng, hệ số biến động ... Sau đây là một số thống kê:
Trung bình cộng và phương sai mẫu s2
Trung bình cộng bằng tổng x của các giá trị quan sát Xi chia cho số quan sát n (n gọi là dung lượng mẫu hay cỡ mẫu), trung bình cộng chính là giá trị trung bình thường dùng trong đời sống (trọng lượng trung bình của đàn gà chiều cao trung bình của cây lúa, tiền lương trung bình của cán bộ trong cơ quan...)
Nếu coi trung bình cộng là tâm của dãy số liệu thì ứng với mỗi giá trị xi ta có độ lệch ei = xi - , độ lệch này cho biết xi ở gần hay xa tâm, nếu lấy ei bình phương lên, cộng lại, rồi lấy trung bình thì được một số đánh giá mức phân tán của số liệu, gọi là phương sai chưa hiệu chỉnh. Sau khi nghiên cứu kĩ hơn vé lí thuyết nguời ta lấy tổng bình phương của các ei chia cho (n - 1), đó là phương sai đã hiệu chỉnh hay phương sai mẫu s2.
Căn bậc hai của s2 là độ lệch chuẩn s.
Chia s cho rồi nhân với 100% được hệ số biến động CV. Sau đây là công thức tính X và s2:
a) Trường hợp không có tần số
= ; s2 = ; s2 = (5.1)
b) Trường hợp có tần số
= ; s2 =
s2 = với n = (5.2)
Thí dụ 1
Cho dãy số:
5 5 6 6 6 7 7 7 7 7 8 8 8 9 9
n = 15; = = 7; s2 = = = 1,571429
s= 1,2536; CV = = 17,91%.
Thí dụ 2
Chiều cao 100 cây ngô
|
Khoảng cm |
Điểm giữa xi |
Tần số mi |
xi.mi | x2i.mi | (xi-x)2.mi |
|
154 - 158 158 - 162 162 - 166 166 - 170 170 - 174 174 - 178 178 - 182 |
156 160 164 168 172 176 180 |
10 14 26 28 12 8 2 |
1560 2240 4264 4704 2064 1408 360 |
243360 358400 699296 790272 355008 247808 64800 |
1000 504 104 112 432 800 392 |
| Tổng | 100 | 16600 | 2758944 | 3344 |
n = 100 ; = 166 ; s2 = = 33,7778
s2 = = 33,7778 ; s = 5,8119 ; CV = 3,5%
Trung vị và các tứ phân vị mẫu
Nếu sắp xếp số liệu từ nhỏ đến to thì sau đó thường chú ý đến:
- Trung vị: đó là số đứng ở vị trí giữa, có thể coi trung vị là số mà khoảng 50% số liệu có giá trị bé hơn và khoảng 50% số liệu có giá trị lớn hơn.
Trung vị kí hiệu là Me.
- Tứ phân vị dưới: là số mà khoảng 25% số liệu có giá trị bé hơn.
- Tứ phân vị trên: là số mà khoảng 25% số liệu có giá trị lớn hơn.
Khi n nhỏ thì không thể tính chính xác trung vị và các tứ phân vị mà chỉ là gần đúng.
Khi n lớn có thể tìm trung vị và các tứ phân vị chính xác hơn.
Nếu chia khoảng thì có thể đưa ra các cách nội suy để tính gần đúng trung vị và tứ phân vị.
Độ nghiêng và độ nhọn mẫu
Do tầm quan trọng của phân phối chuẩn trong nghiên cứu xác suất thống kê nên người ta còn chú ý đến hai thống kê sau:
Độ nghiêng (hay bất đối xứng Skewness). Nếu phân phối đối xứng thì tần số của các giá trị đối xứng qua trung bình cộng (các độ lệch bằng nhau và trái dấu) xấp xỉ bằng nhau và độ nghiêng bằng không.
Nếu tập trung nhiều số liệu trước thì độ nghiêng dương, gọi là lệch trái, nếu tập trung sau thì độ nghiêng âm, gọi là lệch phải.
Nếu độ nghiêng có trị tuyệt đối lớn thì coi như phân phối bất đối xứng do đó phải biến đổi trước khi xử lí cho phù hợp với giả thiết phân phối chuẩn.
Độ nhọn (Kurtosis). Phân phối chuẩn có đường mật độ xác suất mềm mại và trải đều, giữa cao hai bên xuống dần, nếu số liệu tập trung qua nhiều ở giữa còn hai bên quá ít thì gọi là nhọn quá (so với chuẩn), phân phối có độ nhọn dương, ngược lại nếu dàn trải trên diện rộng thì gọi là tù quá và có độ nhọn âm. Độ nhọn cho ta một cách đánh giá xem có nên biến đổi cho bớt nhọn hoặc bớt tù để phù hợp với giả thiết phân phối chuẩn.
Để nghiên cứu sự thay đổi của các thống kê, người ta thường suy luận:
Gọi Xi là biến ngẫu nhiên X khảo sát trên cá thể thứ nhất của mẫu, X2 là biến ngẫu nhiên X khảo sát trên cá thể thứ hai, ...,Xn trên cá thể thứ n. Các biến X1, X2, ...,Xn độc lập có cùng phân phối như X.
Các thống kê là hàm của các biến ngẫu nhiên nên cũng là biến ngẫu nhiên, do đó có thể khảo sát
= ; s2 =
như mọi biến khác.
Thí dụ trung bình cộng = phân phối chuẩn N(, )
phân phối với (n-1) bậc tự do.