Bài giảng môn Lý thuyết xác suất và thống kê toán - Chương 8: Kiểm định giả thiết thống kê

Giả thiết thống kê là những giả

thiết nói về các tham số, phân phối

xác suất, tính đôc lập. . . của các

đại lượng ngẫu nhiên.Thí dụ: Trong một báo cáo nói

rằng: năng suất lúa trung bình của

tỉnh Y năm 2013 là 6,8 tấn/ha thì có

thể coi đó là một giả thiết thống kê,

giả thiết này nói về một tham số (kỳ

vọng toán) của đ.l.n.n biểu thị năng

suất lúa của tỉnh này.Dựa vào số liệu của một mẫu điều

tra về năng suất lúa của tỉnh này

và qui tắc kiểm định để đưa ra một

kết luận là bác bỏ hay chấp nhận

giả thiết trên.

pdf 97 trang kimcuc 16800
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng môn Lý thuyết xác suất và thống kê toán - Chương 8: Kiểm định giả thiết thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng môn Lý thuyết xác suất và thống kê toán - Chương 8: Kiểm định giả thiết thống kê

Bài giảng môn Lý thuyết xác suất và thống kê toán - Chương 8: Kiểm định giả thiết thống kê
1- Giả thiết thống kê:
I- CÁC KHÁI NIỆM
Việc tìm ra kết luận bác bỏ hay
chấp nhận một giả thiết gọi làø
kiểm định giả thiết thống kê.
Giả thiết thống kê là những giả
thiết nói về các tham số, phân phối
xác suất, tính đôc lập. . . của các
đại lượng ngẫu nhiên.
Thí dụ: Trong một báo cáo nói
rằng: năng suất lúa trung bình của
tỉnh Y năm 2013 là 6,8 tấn/ha thì có
thể coi đó là một giả thiết thống kê,
giả thiết này nói về một tham số (kỳ
vọng toán) của đ.l.n.n biểu thị năng
suất lúa của tỉnh này.
Dựa vào số liệu của một mẫu điều
tra về năng suất lúa của tỉnh này
và qui tắc kiểm định để đưa ra một
kết luận là bác bỏ hay chấp nhận
giả thiết trên.
Khi đặt giả thiết thống kê cần lưu ý:
 Giả thiết đặt ra sao cho khi chấp
nhận hoặc bác bỏ nó sẽ có tác dụng
trả lời được câu hỏi mà bài toán
thực tế đặt ra.
 Giả thiết đặt ra thường mang
nghĩa :”không khác nhau”, hoặc
“khác mà không có ý nghĩa” hoặc
“bằng nhau”.
Giả thiết đặt ra như vậy gọi là giả
thiết cần kiểm định. (Hay giả thiết
không - null hypothesis). ký hiệu là
H0 .
Một mệnh đề đối lập với H0 gọi là
giả thiết đối và được ký hiệu là H1
Chẳng hạn: H0:  = 0; H1:  0
( là tham số của đ.l.n.n; 0 là giá
trị đã biết).
Nếu kiểm định giả thiết với giả thiết
đối có dạng như trên được gọi là
kiểm định giả thiết hai phía. (Vì
miền bác bỏ nằm về hai phía của
miền chấp nhận)
Giả thiết đối dạng:  0 thường
được áp dụng khi ta chưa biết rõ
trong thực tế  > 0 hay  < 0 .
Nhưng nếu bằng kinh nghiệm hoặc
qua phân tích ta biết được chiều
hướng là  > 0 thì ta có thể đặt giả
thiết đối dạng:  > 0.
Hoặc ta biết được chiều hướng là 
< 0 thì ta có thể đặt giả thiết đối
dạng:  < 0
Nếu kiểm định giả thiết với giả
thiết đối có dạng: H1:  > 0; hoặc
H1:  < 0; thì được gọi là kiểm
định giả thiết một phía.
Nếu giả thiết đối có dạng
H1:  > 0
thì được gọi là kiểm định giả thiết
về phía bên phải
(vì miền bác bỏ nằm về phía bên
phải của miền chấp nhận).
Nếu giả thiết đối có dạng
H1:  < 0
thì được gọi là kiểm định giả thiết
về phía bên trái
(vì miền bác bỏ nằm về phía bên
trái của miền chấp nhận).
Nhiệm vụ của lý thuyết kiểm định
giả thiết thống kê là: Bằng thực
nghiệm (thông qua mẫu cụ thể)
kiểm tra tính đúng (sai) của giả
thiết H0.
2- Mức ý nghĩa, miền bác bỏ
Với bé tùy ý có thể tìm được
miền W mà P(Z W ) = .
Miền W được gọi là miền bác bỏ
giả thiết H0.
 tùy thuộc vào tầm quan trọng
của vấn đề kiểm định. Trong thực
tế thường chọn trong khoảng
(1%; 5%). được gọi là mức ý
nghĩa của kiểm định.
Nếu z W thì ta bác bỏ giả thiết H0
thừa nhận H1
Nếu z W thì ta chấp nhận H0.
* Lưu ý: Khi nói “chấp nhận H0”
điều đó không có nghĩa là giả thiết
H0 là đúng mà chỉ có nghĩa là với số
liệu của mẫu ta chưa đủ cơ sở (chưa
đủ bằng chứng) để bác bỏ H0.
Trong thực hành nên nói rằng: “có
thể chấp nhận H0” hoặc “chưa có
cơ sở để bác bỏ H0”
3- Sai lầm loại 1 và sai lầm loại 2
a- Sai lầm loại 1: 
Là sai lầm mắc phải khi ta bác bỏ
một giả thiết H0 trong khi thực tế
thì giả thiết H0 đúng.
Xác suất mắc phải sai lầm loại 1
chính là mức ý nghĩa .
P(Z W ) = 
(Xác suất để tiêu chuẩn Z thuộc
miền W nếu giả thiết H0 đúng).
Nếu càng bé thì khả năng phạm
phải sai lầm loại 1 càng ít..
b- Sai lầm loại 2:
Là sai lầm mắc phải khi ta chấp
nhận giả thiết H0 trong khi thực tế
thì giả thiết H0 sai.
Xác suất mắc phải sai lầm loại 2 là
xác suất để Z nhận giá trị không
thuộc miền bác bỏ W khi H0 sai (tức
H1 đúng). P(Z W /H1) = 
Các trường hợp có thể xảy ra khi tiến
hành kiểm định giả thiết thống kê cho
ở bảng sau:
Có 2 cách khống chế khả năng
mắc phải sai lầm:
Cách thứ nhất: Ta ấn định trước
mức xác suất sai lầm loại 1 và sai
lầm loại 2 rồi tính toán tìm một
mẫu có kích thước nhỏ nhất ứng
với 2 mức xác suất sai lầm này.
Cách thứ hai: Ta ấn định trước
xác suất sai lầm loại 1 (tức cho
trước mức ý nghĩa ) chọn miền
bác bỏ W sao cho có xác suất sai
lầm loại 2 cực tiểu. Các miền bác
bỏ W trong giáo trình này thỏa
mãn yêu cầu đó
Chú ý: bác bỏ hay chấp nhận một
giả thiết tùy thuộc vào giá trị thực
nghiệm của tiêu chuẩn Z và mức ý
nghĩa . Kiểm định giả thiết thống kê
chỉ là một qui tắc giúp ta kết luận
một vấn đề nào đó mà bài toán thực
tế đặt ra sao cho kết luận đó có khả
năng mắc phải sai lầm nhỏ.
Giả sử trung bình của tổng thể
(cũng chính là kỳ vọng toán của
đ.l.n.n X) là  ( chưa biết). Cần
kiểm định giả thiết:
H0:  = m0; H1:  m0
II- KIỂM ĐỊNH GIẢ THIẾT VỀ 
TRUNG BÌNH TỔNG THỂ
Để kiểm định giả thiết trên ta tiến
hành lấy mẫu kích thức n và xét
các trường hợp sau:
1- Trường hợp n 30 (hoặc n < 30
nhưng X có phân phối chuẩn); 2
đã biết.
Trường hợp này ta chọn thống kê: 
Z =
n/
mX 0

làm tiêu chuẩn kiểm định.
Nếu giả thiết H0 đúng thì
Z  N(0, 1)
Với mức ý nghĩa , chọn miền bác 
bỏ giả thiết H0: W = z :  z  > z /2
Trong đó z /2 là giá trị của Z.
Z  N(0, 1) thoả mãn: z /2 > 0
P( Z > z /2 ) = 
Trên đồ thị, miền bác bỏ W được
minh họa như sau:
Để xác định z /2 ta tra bảng hàm
Laplace ở phần phụ lục hoặc dùng
hàm NORMSINV trong Excel
Như vậy xác suất để giá trị của Z
rơi vào miền bác bỏ là , tức xác
suất để Z rơi vào miền chấp nhận
sẽ là 1 . Vì nhỏ, nên xác suất
để Z rơi vào miền chấp nhận sẽ
lớn.
Nghĩa là: nếu giả thiết H0 đúng thì
có thể coi rằng hầu hết các giá trị
của Z sẽ rơi vào miền chấp nhận.
Còn nếu giá trị của Z rơi vào miền
bác bỏ có nghĩa là ta đã tìm được
“bằng chứng” để chứng tỏ giả thiết
H0 là không đúng và vì thế ta bác bỏ
giả thiết đó.
Từ đó ta có qui tắc quyết định khi
tiến hành kiểm định giả thiết H0
trong trường hợp này như sau:
 Lấy mẫu kích thước n, từ mẫu 
cụ thể này tính:
z =
n
mx 0

 Với mức ý nghĩa cho trước ,
xác định z /2
 Nếu z > z /2 thì bác bỏ giả thiết
H0, chấp nhận H1.
Nếu z z /2 thì có thể chấp nhận
giả thiết H0.
Từ việc chấp nhận (hay bác bỏ) H0 ta
suy ra kết luận cuối cùng theo yêu
cầu của bài toán thực tế.
2- Trường hợp n 30 ; 2 chưa biết
Chọn: 
Z = n
S
)mX( 0 
làm tiêu chuẩn kiểm định.
Nếu H0 đúng thì Z  N(0, 1), do đó
miền bác bỏ giả thiết H0 và qui tắc
quyết định trong trường hợp này
giốngï như trường hợp 1. Chỉ khác
là giá trị z được tính theo công
thức:
n
s
mx
z 0
3- Trường hợp n < 30, 2 chưa biết, 
X có phân phối chuẩn 
Chọn:
n
S
)mX( 0 T =
làm tiêu chuẩn kiểm định.
Nếu H0 đúng thì T có phân phối
Student với n 1 bậc tự do.
Miền bác bỏ:
W = t :  t  > t /2
Trong đó t /2 là giá trị của T.
T  T(n-1) thoả mãn: t /2 > 0 và
P( T > t /2 ) = 
t /2 được xác định bằng cách tra
bảng phân phối Student với bậc tự
do n 1 hoặc dùng hàm TINV
trong Excel.
Từ đó ta có qui tắc quyết định khi
tiến hành kiểm định giả thiết H0
trong trường hợp này như sau:
 Lấy mẫu kích thước n, từ mẫu 
cụ thể này tính:
t = n
S
)mX( 0 
 Với mức ý nghĩa cho trước ,
xác định t /2
Nếu t > t /2 , thì bác bỏ giả thiết
H0, chấp nhận H1.
Nếu t t /2 , thì có thể chấp nhận
giả thiết H0.
Từ việc chấp nhận (hay bác bỏ) H0
ta suy ra kết luận cuối cùng theo
yêu cầu của bài toán thực tế.
Chú ý: Trường hợp bác bỏ giả
thiết H0.
* Nếu x < m0 thì có thể kết luận 
< m0
* Nếu x > m0 thì có thể kết luận 
> m0
Nếu kiểm định giả thiết: 
H0:  = m0; H1:  > m0
Thì qui tắc kiểm định ở bước 2 và 
3 thay đổi như sau:
 Dùng z thay cho z /2
Nếu z > z thì bác bỏ H0
Nếu z z thì có thể chấp nhận H0
Nếu kiểm định giả thiết: 
H0:  = m0; H1:  < m0
Thì qui tắc kiểm định ở bước 2 và 
3 thay đổi như sau:
 Dùng z thay cho z /2
Nếu z < -z thì bác bỏ H0
Nếu z > -z thì có thể chấp nhận H0
Thí dụ: Trọng lượng của các bao gạo
do một máy đóng bao sản xuất là đại
lượng ngẫu nhiên có phân phối chuẩn
với trọng lượng trung bình theo qui
định là 50 kg.
Để xem máy đóng bao làm việc có
bình thường không người ta cân thử
50 bao và tính được:
x = 49,72 kg; s = 0,5 kg.
Với mức ý nghĩa = 1%, hãy cho
kết luận về tình hình làm việc của
máy đóng bao đó?
Giải: Gọi  là trọng lượng trung
bình thực tế của những bao gạo do
máy sản xuất ( chưa biết). Đặt giả
thiết:
H0:  = 50 ; H1:  < 50
Trường hợp này kích thước mẫu n
= 50 > 30 ; 2 chưa biết.
z = = 3,9650
5,0
)5072,49( 
Với mức ý nghĩa = 1%, thì:
z = z0,01 = 2,326
Vì z = -3,96 < -2,326.
Tức z W nên ta bác bỏ giả thiết
H0. Tức là máy đóng bao làm việc
không bình thường. Nói cụ thể
hơn, máy đã sản xuất ra những
bao gạo có trọng lượng trung bình
thấp hơn 50 kg.
x
Giả sử tỷ lệ các phần tử có tính
chất A của tổng thể là p (p chưa
biết). Ta cần kiểm định giả thiết:
H0: p = p0 ; H1: p p0
với mức ý nghĩa .
III- KIỂM ĐỊNH GIẢ THIẾT 
VỀ TỶ LỆ TỔNG THỂ
Để kiểm định giả thiết trên, ta lấy
mẫu kích thước n khá lớn và áp
dụng qui tắc quyết định như sau:
+ Từ mẫu cụ thể tính f rồi tính:
)p1(p
n)pf(
z
00
0
+ Với cho trước , xác định z /2
+ Nếu z  > z /2 thì ta bác bỏ H0.
Nếu z  z /2 thì ta có thể chấp nhận
H0.
Từ việc chấp nhận (hay bác bỏ) H0
ta suy ra kết luận cuối cùng theo yêu
cầu của bài toán thực tế.
Chú ý: Trường hợp bác bỏ giả
thiết H0.
•Nếu f < p0 thì có thể kết luận
• p < p0
•Nếu f > p0 thì có thể kết luận
• p > p0
Nếu kiểm định giả thiết: 
H0: p = p0; H1: p > p0
Thì qui tắc kiểm định ở bước 2 và 
3 thay đổi như sau:
 Dùng z thay cho z /2
Nếu z > z thì bác bỏ H0
Nếu z z thì có thể chấp nhận H0
Nếu kiểm định giả thiết: 
H0: p = p0; H1: p < p0
Thì qui tắc kiểm định ở bước 2 và 
3 thay đổi như sau:
 Dùng z thay cho z /2
Nếu z < -z thì bác bỏ H0
Nếu z > -z thì có thể chấp nhận H0
Thí dụ: Tỷ lệ phế phẩm của một nhà
máy trước đây là 5%. Sau khi tiến
hành một cải tiến kỹ thuật, người ta
kiểm tra 400 sản phẩm thì thấy có 16
phế phẩm.
Với mức ý nghĩa = 2%, hãy kết luận
xem việc cải tiến kỹ thuật có làm giảm
tỷ lệ phế phẩm hay không ?
Giải: Gọi p là tỷ lệ phế phẩm của nhà
máy sau khi cải tiến kỹ thuật. Ta cần
kiểm định giả thiết
H0: p = 0,05 ; H1: p < 0,05
Với mức ý nghĩa = 2 %thì 
z = z0,02 = 2,054 
Tỷ lệ phế phẩm của mẫu là:
f = = 0,0416
400
z = = 0,92
)05,01(05,0
400)05,004,0(
Vì z = -0,92 > -2,054, tức z W nên
ta có thể chấp nhận giả thiết H0. Tức
biện pháp kỹ thuật chưa có tác dụng
làm giảm tỷ lệ phế phẩm của nhà
máy.
IV- KIỂM ĐỊNH GIẢ THIẾT VỀ 
PHÂN PHỐI XÁC SUẤT CỦA ĐẠI 
LƯỢNG NGẪU NHIÊN
Giả sử chưa biết phân phối xác
suất của đại lượng ngẫu nhiên X, ta
cần kiểm định giả thiết:
H0: X có phân phối xác suất nào đó.
H1: X không có phân phối xác suất
nói trên.
Ký hiệu: Pi = P(X = xi) 
hoặc Pi = P(xi X xi+1) 
Thực hiện n phép thử độc lập đối với
đ.l.n.n X. Tần số lý thuyết của biến
cố (X = xi) sẽ là nPi. Tần số thực tế là
ni. Hiệu (ni nPi)
2 có thể dùng làm
cơ sở để xét xem phân phối xác suất
của X có phải như giả thiết H0 đã
nêu ra hay không.
K. Pearson đã chọn thống kê:
2 = 
 k
1i i
2
ii
nP
)nPn(
làm tiêu chuẩn kiểm định.
Với n khá lớn có thể coi 2 có phân
phối “Chi bình phương” với (k r
 1) bậc tự do.
Trong đó r là số các tham số chưa
biết đối với phân phối xác suất của
X theo H0.
Miền bác bỏ giả thiết H0 với mức ý 
nghĩa là:
W = 222 :  
Trong đó 2 là giá trị của đại
lượng ngẫu nhiên 2 với (k r 1)
bậc tự do thoả mãn điều kiện:
P = 22  
Ta có thể minh họa miền bác bỏ
W như sau:
2 
miền bác bỏ miền chấp nhận 
+ 0
Qui tắc quyết định:
+ Lấy mẫu kích thước n, từ mẫu
này ta có được các giá trị quan sát
xi (i = 1, 2, . . . , k) hoặc các khoảng
(xi; xi+1).
Theo giả thiết H0, ta tính
Pi = P(X = xi)
hoặc Pi = P( xi < X < xi+1).

 
k
1i i
2
ii2
nP
)nPn(
ni là tần số thực tế của xi hoặc của
khoảng (xi; xi+1)
+ Với mức ý nghĩa , tra bảng phân
phối “chi –bình phương” (bậc tự do
k r 1) để tìm giá trị 2 
r là số các tham số chưa biết của
phân phối xác suất theo giả thiết
H0)
+ Nếu 2 > thì bác bỏ H0
+ Nếu 2 thì có thể chấp nhận
H0
2
 
2
 
Từ việc chấp nhận (hay bác bỏ H0)
ta suy ra kết luận cuối cùng mà
bài toán thực tế yêu cầu.
Thí dụ: 
Sản phẩm được sản xuất ra trên
một dây chuyền tự động được đóng
gói một cách ngẫu nhiên theo qui
cách: 3 sản phẩm/hộp. Tiến hành
kiểm tra 200 hộp ta được kết quả:
Với mức ý nghĩa 5%, có thể xem số
sản phẩm loại I có trong một hộp
là đại lượng ngẫu nhiên có phân
phối nhị thức hay không?
p chưa biết. p được ước lượng là:
(5 0 + 20 1 + 125 2 + 50 3)/600 = 0,7
Giải: Gọi X là số sản phẩm loại I
có trong một hộp. Ta cần KĐ giả
thiết: H0: X  B(3, p)
Để tính 2 ta lập bảng tính như
sau:
2 = 28,81 > 20,05 (2) = 5,99.
Bác bỏ giả thiết H0.
X không có phân phối nhị thức.
Đọc bài tập: 8.14
Giả sử quan sát đồng thời hai dấu
hiệu A và B trên cùng một phần
tử.
V- KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH
ĐỘC LẬP CỦA HAI DẤU HIỆU
Dấu hiệu A có các dấu hiệu thành
phần là:
A1, A2, . . . , Ah
Dấu hiệu B có các dấu hiệu thành
phần là:
B1, B2, . . . , Bk
Cần kiểm định giả thiết:
H0: A và B độc lập. 
H1: A và B không độc lập.
Lấy mẫu kích thước n và trình
bày kết quả quan sát dưới dạng
bảng sau:
BA
B1 B2 . . . Bk Toån
g
A1 n11 n12 . . . n1k n1
A2 n21 n22 . . . n2k n2
. . . . . . . . . . . . . . . . . . 
Ah nh1 nh2 . . . n1k nh
Toå
ng
m1 m2 . . . mk n
Trong đó:
ni (i =1, 2, . . . ,h) là tổng số phần tử
mang dấu hiệu thành phần Ai.
mj (j = 1, 2, . . . , k) là tổng số phần
tử mang dấu hiệu thành phần Bj
nij (i = 1,...,h; j =1,,k) là tổng số
phần tử mang dấu hiệu thành
phần Ai và Bj.
Gọi Ci là biến cố chọn được phần
tử mang dấu hiệu Ai
Dj là biến cố chọn được phần tử
mang dấu hiệu Bj
Khi n khá lớn, theo định nghĩa
thống kê về xác suất ta có:
n
m
)D(P;
n
n
)C(P;
n
n
)DC(P
j
j
i
i
ij
ji 
Nếu H0 đúng, tức A, B độc lập thì
các dấu hiệu Ai, Bj cũng độc lập.
Do đó:
P(CiDj) = P(Ci)P(Dj)
Tức là: 
n
m
.
n
n
n
n jiij 
Qui tắc quyết định:
+ Lấy mẫu kích thước n, từ mẫu
này tính:
 
h
1i
k
1j
ij 1n
2
ji
2
ij
ij
mn
)n(
+ Với mức ý nghĩa đã cho, tra
bảng 2 với bậc tự do (k-1)(h-1) để
tìm
(hoặc dùng hàm CHIINV trong
Excel).
2

+ Nếu 2 >
thì bác bỏ H0, thừa nhận H1
2
 
+ Nếu 2 
thì có thể chấp nhận H0
2
 
Thí dụ:
Một công ty đã tiến hành khảo sát
về sở thích của khách hàng về 3
loại mẫu khác nhau của cùng một
loại hàng. Kết quả khảo sát cho ở
bảng sau:
Với mức ý nghĩa = 0,05, hãy
kết luận mẫu hàng có ảnh hưởng
đến ý thích của khách hàng hay
không.
Giải:
H0: Mẫu hàng (dấu hiệu A) độc lập
(không ảnh hưởng) đến ý thích của
khách hàng (dấu hiệu B).
H1: Mẫu hàng không độc lập (có
ảnh hưởng) đến ý thích của khách
hàng.
Toån
g
115
127
58
Toång 100 100 100 300
 
100115
30
100115
43 22
j,i
ij
100127
35
100115
42 22
025353,1
10058
19
...
2
  
h
1i
k
1j
ij
2 1n
= 300(1,025353-1) = 7,6059
Với = 5%, tra bảng 2 với bậc
tự do:
(3 1)(3 1) = 4
= 9,488
2
05,0
2  
Vì 2 = 7,6059 < 9,488 
nên ta chấp nhận giả thiết H0
tức mẫu hàng không ảnh hưởng
đến ý thích của khách hàng.
Tổng kết chương 8
GT thống kê
KĐGT về 
KĐGT về p
. . . 
KĐGT về PPXS
KĐGT về sự đ.lập 
của 2 dấu hiệu
K/niệm Cách đặt GTTK
Kiểm
định
tham
số
Kiểm
định
phi
th.số
Cơ sở LT
Cơ sở LT
Qui tắc q/định
Qui tắc q/định
Kết luận 
Bài tập:
8.4; 8.5; 8.21; 8.23;
8.25; 8.26; 8.27; 8.28.
Hết chương 8

File đính kèm:

  • pdfbai_giang_mon_ly_thuyet_xac_suat_va_thong_ke_toan_chuong_8_k.pdf