Toán tin vuotlen.com

Các số đặc trưng của mẫu

Giả sử chúng ta muốn khảo sát một biến ngẫu nhiên X. Sau khi lấy mẫu gồm n cá thể, ta ghi lại các giá trị của X trên từng cá thể: x1, x2, ... , xn, các số liệu này gọi là số liệu gốc. Có thể để nguyên số liệu gốc để xử lí nhưng khi n khá lớn thì thường sắp xếp lại dưới dạng hai cột, một cột ghi giá trị xi, một cột ghi số lần gặp tức là tần số mi, nếu n quá lớn thì thường dùng cách chia số liệu ra khoảng 25 - 30 lớp sau đó lấy điểm giữa làm đại diện cho lớp. Tiếp theo là dùng đồ thị để minh hoạ các số liệu.

Thí dụ 1. Năng suất tại 365 điểm trồng lúa của một huyện.

Năng suất

(tạ/ha)

Số điểm

(mi)

25

30

35

40

45

50

55

19

38

74

106

85

30

13

Thí dụ 2. Chiều cao 300 em học sinh lứa tuổi 12 ở một vùng.

Chiều cao

(cm)

Điểm giữa
 

Số em

(mi)

117,5 -122,5

122,5 - 127,5

127,5 - 132,5

132,5 - 137,5

137,5 - 142,5

142,5 - 147,5

147,5 - 152,5
 

120

125

130

135

140

145

150
 

9

33

74

93

64

21

6
 

Sau khi sắp xếp thường tính một số số đặc trưng của mẫu gọi chung là các thống kê như: trung bình cộng, trung bình nhân, trung vị, mod, phương sai mẫu, độ lệch chuẩn, độ nhọn, độ nghiêng, hệ số biến động ... Sau đây là một số thống kê:
Trung bình cộng x và phương sai mẫu s2

Trung bình cộng x bằng tổng Σx của các giá trị quan sát Xi chia cho số quan sát n (n gọi là dung lượng mẫu hay cỡ mẫu), trung bình cộng chính là giá trị trung bình thường dùng trong đời sống (trọng lượng trung bình của đàn gà chiều cao trung bình của cây lúa, tiền lương trung bình của cán bộ trong cơ quan...)

Nếu coi trung bình cộng là tâm của dãy số liệu thì ứng với mỗi giá trị xi ta có độ lệch ei = xi - x, độ lệch này cho biết xi ở gần hay xa tâm, nếu lấy ei bình phương lên, cộng lại, rồi lấy trung bình thì được một số đánh giá mức phân tán của số liệu, gọi là phương sai chưa hiệu chỉnh. Sau khi nghiên cứu kĩ hơn vé lí thuyết nguời ta lấy tổng bình phương của các ei chia cho (n - 1), đó là phương sai đã hiệu chỉnh hay phương sai mẫu s2.

Căn bậc hai của s2 là độ lệch chuẩn s.

Chia s cho x rồi nhân với 100% được hệ số biến động CV. Sau đây là công thức tính X và s2:

a) Trường hợp không có tần số

x = 1nxin ; s(1nxi-x¯)2n-1 ; s1nx2i-n(x¯)2n-1 (5.1)

b) Trường hợp có tần số

x = 1kximin ; s(1kxi-x¯)2min-1

s1kx2imi-n(x¯)2n-1  với n = miik (5.2)

Thí dụ 1

Cho dãy số:

5 5 6 6 6 7 7 7 7 7 8 8 8 9 9

n = 15; x5+5+...+915 = 7; s2757-15.7214 = 2214 = 1,571429

s= 1,2536; CV = 1,25367100% = 17,91%.

Thí dụ 2

Chiều cao 100 cây ngô

Khoảng

cm

Điểm giữa

xi

Tần số

mi

xi.mi x2i.mi (xi-x)2.mi

154 - 158

158 - 162

162 - 166

166 - 170

170 - 174

174 - 178

178 - 182

156

160

164

168

172

176

180

10

14

26

28

12

8

2

1560

2240

4264

4704

2064

1408

360

243360

358400

699296

790272

355008

247808

64800

1000

504

104

112

432

800

392

Tổng   100 16600 2758944 3344

n = 100 ; x = 166 ; s2 = 334499 = 33,7778

s22758944-100.166299 = 33,7778 ; s = 5,8119 ; CV = 3,5%

Trung vị và các tứ phân vị mẫu

Nếu sắp xếp số liệu từ nhỏ đến to thì sau đó thường chú ý đến:

- Trung vị: đó là số đứng ở vị trí giữa, có thể coi trung vị là số mà khoảng 50% số liệu có giá trị bé hơn và khoảng 50% số liệu có giá trị lớn hơn.

Trung vị kí hiệu là Me.

- Tứ phân vị dưới: là số mà khoảng 25% số liệu có giá trị bé hơn.

- Tứ phân vị trên: là số mà khoảng 25% số liệu có giá trị lớn hơn.

Khi n nhỏ thì không thể tính chính xác trung vị và các tứ phân vị mà chỉ là gần đúng.

Khi n lớn có thể tìm trung vị và các tứ phân vị chính xác hơn.

Nếu chia khoảng thì có thể đưa ra các cách nội suy để tính gần đúng trung vị và tứ phân vị.

Độ nghiêng và độ nhọn mẫu

Do tầm quan trọng của phân phối chuẩn trong nghiên cứu xác suất thống kê nên người ta còn chú ý đến hai thống kê sau:

Độ nghiêng (hay bất đối xứng Skewness). Nếu phân phối đối xứng thì tần số của các giá trị đối xứng qua trung bình cộng (các độ lệch bằng nhau và trái dấu) xấp xỉ bằng nhau và độ nghiêng bằng không.

Nếu tập trung nhiều số liệu trước x thì độ nghiêng dương, gọi là lệch trái, nếu tập trung sau x thì độ nghiêng âm, gọi là lệch phải.

Nếu độ nghiêng có trị tuyệt đối lớn thì coi như phân phối bất đối xứng do đó phải biến đổi trước khi xử lí cho phù hợp với giả thiết phân phối chuẩn.

Độ nhọn (Kurtosis). Phân phối chuẩn có đường mật độ xác suất mềm mại và trải đều, giữa cao hai bên xuống dần, nếu số liệu tập trung qua nhiều ở giữa còn hai bên quá ít thì gọi là nhọn quá (so với chuẩn), phân phối có độ nhọn dương, ngược lại nếu dàn trải trên diện rộng thì gọi là tù quá và có độ nhọn âm. Độ nhọn cho ta một cách đánh giá xem có nên biến đổi cho bớt nhọn hoặc bớt tù để phù hợp với giả thiết phân phối chuẩn.

 

Để nghiên cứu sự thay đổi của các thống kê, người ta thường suy luận:

Gọi Xi là biến ngẫu nhiên X khảo sát trên cá thể thứ nhất của mẫu, X2 là biến ngẫu nhiên X khảo sát trên cá thể thứ hai, ...,Xn trên cá thể thứ n. Các biến X1, X2, ...,Xn độc lập có cùng phân phối như X.

Các thống kê là hàm của các biến ngẫu nhiên nên cũng là biến ngẫu nhiên, do đó có thể khảo sát

x = 1nxin ; s(1nxi-x¯)2n-1

như mọi biến khác.

Thí dụ trung bình cộng x = 1nxin phân phối chuẩn N(μ, σ2n)

(n-1)S2σ2 phân phối χ2 với (n-1) bậc tự do.