Bài giảng môn Lý thuyết xác suất và thống kê toán - Chương 8: Kiểm định giả thiết thống kê
Giả thiết thống kê là những giả
thiết nói về các tham số, phân phối
xác suất, tính đôc lập. . . của các
đại lượng ngẫu nhiên.Thí dụ: Trong một báo cáo nói
rằng: năng suất lúa trung bình của
tỉnh Y năm 2013 là 6,8 tấn/ha thì có
thể coi đó là một giả thiết thống kê,
giả thiết này nói về một tham số (kỳ
vọng toán) của đ.l.n.n biểu thị năng
suất lúa của tỉnh này.Dựa vào số liệu của một mẫu điều
tra về năng suất lúa của tỉnh này
và qui tắc kiểm định để đưa ra một
kết luận là bác bỏ hay chấp nhận
giả thiết trên.
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng môn Lý thuyết xác suất và thống kê toán - Chương 8: Kiểm định giả thiết thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng môn Lý thuyết xác suất và thống kê toán - Chương 8: Kiểm định giả thiết thống kê
1- Giả thiết thống kê: I- CÁC KHÁI NIỆM Việc tìm ra kết luận bác bỏ hay chấp nhận một giả thiết gọi làø kiểm định giả thiết thống kê. Giả thiết thống kê là những giả thiết nói về các tham số, phân phối xác suất, tính đôc lập. . . của các đại lượng ngẫu nhiên. Thí dụ: Trong một báo cáo nói rằng: năng suất lúa trung bình của tỉnh Y năm 2013 là 6,8 tấn/ha thì có thể coi đó là một giả thiết thống kê, giả thiết này nói về một tham số (kỳ vọng toán) của đ.l.n.n biểu thị năng suất lúa của tỉnh này. Dựa vào số liệu của một mẫu điều tra về năng suất lúa của tỉnh này và qui tắc kiểm định để đưa ra một kết luận là bác bỏ hay chấp nhận giả thiết trên. Khi đặt giả thiết thống kê cần lưu ý: Giả thiết đặt ra sao cho khi chấp nhận hoặc bác bỏ nó sẽ có tác dụng trả lời được câu hỏi mà bài toán thực tế đặt ra. Giả thiết đặt ra thường mang nghĩa :”không khác nhau”, hoặc “khác mà không có ý nghĩa” hoặc “bằng nhau”. Giả thiết đặt ra như vậy gọi là giả thiết cần kiểm định. (Hay giả thiết không - null hypothesis). ký hiệu là H0 . Một mệnh đề đối lập với H0 gọi là giả thiết đối và được ký hiệu là H1 Chẳng hạn: H0: = 0; H1: 0 ( là tham số của đ.l.n.n; 0 là giá trị đã biết). Nếu kiểm định giả thiết với giả thiết đối có dạng như trên được gọi là kiểm định giả thiết hai phía. (Vì miền bác bỏ nằm về hai phía của miền chấp nhận) Giả thiết đối dạng: 0 thường được áp dụng khi ta chưa biết rõ trong thực tế > 0 hay < 0 . Nhưng nếu bằng kinh nghiệm hoặc qua phân tích ta biết được chiều hướng là > 0 thì ta có thể đặt giả thiết đối dạng: > 0. Hoặc ta biết được chiều hướng là < 0 thì ta có thể đặt giả thiết đối dạng: < 0 Nếu kiểm định giả thiết với giả thiết đối có dạng: H1: > 0; hoặc H1: < 0; thì được gọi là kiểm định giả thiết một phía. Nếu giả thiết đối có dạng H1: > 0 thì được gọi là kiểm định giả thiết về phía bên phải (vì miền bác bỏ nằm về phía bên phải của miền chấp nhận). Nếu giả thiết đối có dạng H1: < 0 thì được gọi là kiểm định giả thiết về phía bên trái (vì miền bác bỏ nằm về phía bên trái của miền chấp nhận). Nhiệm vụ của lý thuyết kiểm định giả thiết thống kê là: Bằng thực nghiệm (thông qua mẫu cụ thể) kiểm tra tính đúng (sai) của giả thiết H0. 2- Mức ý nghĩa, miền bác bỏ Với bé tùy ý có thể tìm được miền W mà P(Z W ) = . Miền W được gọi là miền bác bỏ giả thiết H0. tùy thuộc vào tầm quan trọng của vấn đề kiểm định. Trong thực tế thường chọn trong khoảng (1%; 5%). được gọi là mức ý nghĩa của kiểm định. Nếu z W thì ta bác bỏ giả thiết H0 thừa nhận H1 Nếu z W thì ta chấp nhận H0. * Lưu ý: Khi nói “chấp nhận H0” điều đó không có nghĩa là giả thiết H0 là đúng mà chỉ có nghĩa là với số liệu của mẫu ta chưa đủ cơ sở (chưa đủ bằng chứng) để bác bỏ H0. Trong thực hành nên nói rằng: “có thể chấp nhận H0” hoặc “chưa có cơ sở để bác bỏ H0” 3- Sai lầm loại 1 và sai lầm loại 2 a- Sai lầm loại 1: Là sai lầm mắc phải khi ta bác bỏ một giả thiết H0 trong khi thực tế thì giả thiết H0 đúng. Xác suất mắc phải sai lầm loại 1 chính là mức ý nghĩa . P(Z W ) = (Xác suất để tiêu chuẩn Z thuộc miền W nếu giả thiết H0 đúng). Nếu càng bé thì khả năng phạm phải sai lầm loại 1 càng ít.. b- Sai lầm loại 2: Là sai lầm mắc phải khi ta chấp nhận giả thiết H0 trong khi thực tế thì giả thiết H0 sai. Xác suất mắc phải sai lầm loại 2 là xác suất để Z nhận giá trị không thuộc miền bác bỏ W khi H0 sai (tức H1 đúng). P(Z W /H1) = Các trường hợp có thể xảy ra khi tiến hành kiểm định giả thiết thống kê cho ở bảng sau: Có 2 cách khống chế khả năng mắc phải sai lầm: Cách thứ nhất: Ta ấn định trước mức xác suất sai lầm loại 1 và sai lầm loại 2 rồi tính toán tìm một mẫu có kích thước nhỏ nhất ứng với 2 mức xác suất sai lầm này. Cách thứ hai: Ta ấn định trước xác suất sai lầm loại 1 (tức cho trước mức ý nghĩa ) chọn miền bác bỏ W sao cho có xác suất sai lầm loại 2 cực tiểu. Các miền bác bỏ W trong giáo trình này thỏa mãn yêu cầu đó Chú ý: bác bỏ hay chấp nhận một giả thiết tùy thuộc vào giá trị thực nghiệm của tiêu chuẩn Z và mức ý nghĩa . Kiểm định giả thiết thống kê chỉ là một qui tắc giúp ta kết luận một vấn đề nào đó mà bài toán thực tế đặt ra sao cho kết luận đó có khả năng mắc phải sai lầm nhỏ. Giả sử trung bình của tổng thể (cũng chính là kỳ vọng toán của đ.l.n.n X) là ( chưa biết). Cần kiểm định giả thiết: H0: = m0; H1: m0 II- KIỂM ĐỊNH GIẢ THIẾT VỀ TRUNG BÌNH TỔNG THỂ Để kiểm định giả thiết trên ta tiến hành lấy mẫu kích thức n và xét các trường hợp sau: 1- Trường hợp n 30 (hoặc n < 30 nhưng X có phân phối chuẩn); 2 đã biết. Trường hợp này ta chọn thống kê: Z = n/ mX 0 làm tiêu chuẩn kiểm định. Nếu giả thiết H0 đúng thì Z N(0, 1) Với mức ý nghĩa , chọn miền bác bỏ giả thiết H0: W = z : z > z /2 Trong đó z /2 là giá trị của Z. Z N(0, 1) thoả mãn: z /2 > 0 P( Z > z /2 ) = Trên đồ thị, miền bác bỏ W được minh họa như sau: Để xác định z /2 ta tra bảng hàm Laplace ở phần phụ lục hoặc dùng hàm NORMSINV trong Excel Như vậy xác suất để giá trị của Z rơi vào miền bác bỏ là , tức xác suất để Z rơi vào miền chấp nhận sẽ là 1 . Vì nhỏ, nên xác suất để Z rơi vào miền chấp nhận sẽ lớn. Nghĩa là: nếu giả thiết H0 đúng thì có thể coi rằng hầu hết các giá trị của Z sẽ rơi vào miền chấp nhận. Còn nếu giá trị của Z rơi vào miền bác bỏ có nghĩa là ta đã tìm được “bằng chứng” để chứng tỏ giả thiết H0 là không đúng và vì thế ta bác bỏ giả thiết đó. Từ đó ta có qui tắc quyết định khi tiến hành kiểm định giả thiết H0 trong trường hợp này như sau: Lấy mẫu kích thước n, từ mẫu cụ thể này tính: z = n mx 0 Với mức ý nghĩa cho trước , xác định z /2 Nếu z > z /2 thì bác bỏ giả thiết H0, chấp nhận H1. Nếu z z /2 thì có thể chấp nhận giả thiết H0. Từ việc chấp nhận (hay bác bỏ) H0 ta suy ra kết luận cuối cùng theo yêu cầu của bài toán thực tế. 2- Trường hợp n 30 ; 2 chưa biết Chọn: Z = n S )mX( 0 làm tiêu chuẩn kiểm định. Nếu H0 đúng thì Z N(0, 1), do đó miền bác bỏ giả thiết H0 và qui tắc quyết định trong trường hợp này giốngï như trường hợp 1. Chỉ khác là giá trị z được tính theo công thức: n s mx z 0 3- Trường hợp n < 30, 2 chưa biết, X có phân phối chuẩn Chọn: n S )mX( 0 T = làm tiêu chuẩn kiểm định. Nếu H0 đúng thì T có phân phối Student với n 1 bậc tự do. Miền bác bỏ: W = t : t > t /2 Trong đó t /2 là giá trị của T. T T(n-1) thoả mãn: t /2 > 0 và P( T > t /2 ) = t /2 được xác định bằng cách tra bảng phân phối Student với bậc tự do n 1 hoặc dùng hàm TINV trong Excel. Từ đó ta có qui tắc quyết định khi tiến hành kiểm định giả thiết H0 trong trường hợp này như sau: Lấy mẫu kích thước n, từ mẫu cụ thể này tính: t = n S )mX( 0 Với mức ý nghĩa cho trước , xác định t /2 Nếu t > t /2 , thì bác bỏ giả thiết H0, chấp nhận H1. Nếu t t /2 , thì có thể chấp nhận giả thiết H0. Từ việc chấp nhận (hay bác bỏ) H0 ta suy ra kết luận cuối cùng theo yêu cầu của bài toán thực tế. Chú ý: Trường hợp bác bỏ giả thiết H0. * Nếu x < m0 thì có thể kết luận < m0 * Nếu x > m0 thì có thể kết luận > m0 Nếu kiểm định giả thiết: H0: = m0; H1: > m0 Thì qui tắc kiểm định ở bước 2 và 3 thay đổi như sau: Dùng z thay cho z /2 Nếu z > z thì bác bỏ H0 Nếu z z thì có thể chấp nhận H0 Nếu kiểm định giả thiết: H0: = m0; H1: < m0 Thì qui tắc kiểm định ở bước 2 và 3 thay đổi như sau: Dùng z thay cho z /2 Nếu z < -z thì bác bỏ H0 Nếu z > -z thì có thể chấp nhận H0 Thí dụ: Trọng lượng của các bao gạo do một máy đóng bao sản xuất là đại lượng ngẫu nhiên có phân phối chuẩn với trọng lượng trung bình theo qui định là 50 kg. Để xem máy đóng bao làm việc có bình thường không người ta cân thử 50 bao và tính được: x = 49,72 kg; s = 0,5 kg. Với mức ý nghĩa = 1%, hãy cho kết luận về tình hình làm việc của máy đóng bao đó? Giải: Gọi là trọng lượng trung bình thực tế của những bao gạo do máy sản xuất ( chưa biết). Đặt giả thiết: H0: = 50 ; H1: < 50 Trường hợp này kích thước mẫu n = 50 > 30 ; 2 chưa biết. z = = 3,9650 5,0 )5072,49( Với mức ý nghĩa = 1%, thì: z = z0,01 = 2,326 Vì z = -3,96 < -2,326. Tức z W nên ta bác bỏ giả thiết H0. Tức là máy đóng bao làm việc không bình thường. Nói cụ thể hơn, máy đã sản xuất ra những bao gạo có trọng lượng trung bình thấp hơn 50 kg. x Giả sử tỷ lệ các phần tử có tính chất A của tổng thể là p (p chưa biết). Ta cần kiểm định giả thiết: H0: p = p0 ; H1: p p0 với mức ý nghĩa . III- KIỂM ĐỊNH GIẢ THIẾT VỀ TỶ LỆ TỔNG THỂ Để kiểm định giả thiết trên, ta lấy mẫu kích thước n khá lớn và áp dụng qui tắc quyết định như sau: + Từ mẫu cụ thể tính f rồi tính: )p1(p n)pf( z 00 0 + Với cho trước , xác định z /2 + Nếu z > z /2 thì ta bác bỏ H0. Nếu z z /2 thì ta có thể chấp nhận H0. Từ việc chấp nhận (hay bác bỏ) H0 ta suy ra kết luận cuối cùng theo yêu cầu của bài toán thực tế. Chú ý: Trường hợp bác bỏ giả thiết H0. •Nếu f < p0 thì có thể kết luận • p < p0 •Nếu f > p0 thì có thể kết luận • p > p0 Nếu kiểm định giả thiết: H0: p = p0; H1: p > p0 Thì qui tắc kiểm định ở bước 2 và 3 thay đổi như sau: Dùng z thay cho z /2 Nếu z > z thì bác bỏ H0 Nếu z z thì có thể chấp nhận H0 Nếu kiểm định giả thiết: H0: p = p0; H1: p < p0 Thì qui tắc kiểm định ở bước 2 và 3 thay đổi như sau: Dùng z thay cho z /2 Nếu z < -z thì bác bỏ H0 Nếu z > -z thì có thể chấp nhận H0 Thí dụ: Tỷ lệ phế phẩm của một nhà máy trước đây là 5%. Sau khi tiến hành một cải tiến kỹ thuật, người ta kiểm tra 400 sản phẩm thì thấy có 16 phế phẩm. Với mức ý nghĩa = 2%, hãy kết luận xem việc cải tiến kỹ thuật có làm giảm tỷ lệ phế phẩm hay không ? Giải: Gọi p là tỷ lệ phế phẩm của nhà máy sau khi cải tiến kỹ thuật. Ta cần kiểm định giả thiết H0: p = 0,05 ; H1: p < 0,05 Với mức ý nghĩa = 2 %thì z = z0,02 = 2,054 Tỷ lệ phế phẩm của mẫu là: f = = 0,0416 400 z = = 0,92 )05,01(05,0 400)05,004,0( Vì z = -0,92 > -2,054, tức z W nên ta có thể chấp nhận giả thiết H0. Tức biện pháp kỹ thuật chưa có tác dụng làm giảm tỷ lệ phế phẩm của nhà máy. IV- KIỂM ĐỊNH GIẢ THIẾT VỀ PHÂN PHỐI XÁC SUẤT CỦA ĐẠI LƯỢNG NGẪU NHIÊN Giả sử chưa biết phân phối xác suất của đại lượng ngẫu nhiên X, ta cần kiểm định giả thiết: H0: X có phân phối xác suất nào đó. H1: X không có phân phối xác suất nói trên. Ký hiệu: Pi = P(X = xi) hoặc Pi = P(xi X xi+1) Thực hiện n phép thử độc lập đối với đ.l.n.n X. Tần số lý thuyết của biến cố (X = xi) sẽ là nPi. Tần số thực tế là ni. Hiệu (ni nPi) 2 có thể dùng làm cơ sở để xét xem phân phối xác suất của X có phải như giả thiết H0 đã nêu ra hay không. K. Pearson đã chọn thống kê: 2 = k 1i i 2 ii nP )nPn( làm tiêu chuẩn kiểm định. Với n khá lớn có thể coi 2 có phân phối “Chi bình phương” với (k r 1) bậc tự do. Trong đó r là số các tham số chưa biết đối với phân phối xác suất của X theo H0. Miền bác bỏ giả thiết H0 với mức ý nghĩa là: W = 222 : Trong đó 2 là giá trị của đại lượng ngẫu nhiên 2 với (k r 1) bậc tự do thoả mãn điều kiện: P = 22 Ta có thể minh họa miền bác bỏ W như sau: 2 miền bác bỏ miền chấp nhận + 0 Qui tắc quyết định: + Lấy mẫu kích thước n, từ mẫu này ta có được các giá trị quan sát xi (i = 1, 2, . . . , k) hoặc các khoảng (xi; xi+1). Theo giả thiết H0, ta tính Pi = P(X = xi) hoặc Pi = P( xi < X < xi+1). k 1i i 2 ii2 nP )nPn( ni là tần số thực tế của xi hoặc của khoảng (xi; xi+1) + Với mức ý nghĩa , tra bảng phân phối “chi –bình phương” (bậc tự do k r 1) để tìm giá trị 2 r là số các tham số chưa biết của phân phối xác suất theo giả thiết H0) + Nếu 2 > thì bác bỏ H0 + Nếu 2 thì có thể chấp nhận H0 2 2 Từ việc chấp nhận (hay bác bỏ H0) ta suy ra kết luận cuối cùng mà bài toán thực tế yêu cầu. Thí dụ: Sản phẩm được sản xuất ra trên một dây chuyền tự động được đóng gói một cách ngẫu nhiên theo qui cách: 3 sản phẩm/hộp. Tiến hành kiểm tra 200 hộp ta được kết quả: Với mức ý nghĩa 5%, có thể xem số sản phẩm loại I có trong một hộp là đại lượng ngẫu nhiên có phân phối nhị thức hay không? p chưa biết. p được ước lượng là: (5 0 + 20 1 + 125 2 + 50 3)/600 = 0,7 Giải: Gọi X là số sản phẩm loại I có trong một hộp. Ta cần KĐ giả thiết: H0: X B(3, p) Để tính 2 ta lập bảng tính như sau: 2 = 28,81 > 20,05 (2) = 5,99. Bác bỏ giả thiết H0. X không có phân phối nhị thức. Đọc bài tập: 8.14 Giả sử quan sát đồng thời hai dấu hiệu A và B trên cùng một phần tử. V- KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH ĐỘC LẬP CỦA HAI DẤU HIỆU Dấu hiệu A có các dấu hiệu thành phần là: A1, A2, . . . , Ah Dấu hiệu B có các dấu hiệu thành phần là: B1, B2, . . . , Bk Cần kiểm định giả thiết: H0: A và B độc lập. H1: A và B không độc lập. Lấy mẫu kích thước n và trình bày kết quả quan sát dưới dạng bảng sau: BA B1 B2 . . . Bk Toån g A1 n11 n12 . . . n1k n1 A2 n21 n22 . . . n2k n2 . . . . . . . . . . . . . . . . . . Ah nh1 nh2 . . . n1k nh Toå ng m1 m2 . . . mk n Trong đó: ni (i =1, 2, . . . ,h) là tổng số phần tử mang dấu hiệu thành phần Ai. mj (j = 1, 2, . . . , k) là tổng số phần tử mang dấu hiệu thành phần Bj nij (i = 1,...,h; j =1,,k) là tổng số phần tử mang dấu hiệu thành phần Ai và Bj. Gọi Ci là biến cố chọn được phần tử mang dấu hiệu Ai Dj là biến cố chọn được phần tử mang dấu hiệu Bj Khi n khá lớn, theo định nghĩa thống kê về xác suất ta có: n m )D(P; n n )C(P; n n )DC(P j j i i ij ji Nếu H0 đúng, tức A, B độc lập thì các dấu hiệu Ai, Bj cũng độc lập. Do đó: P(CiDj) = P(Ci)P(Dj) Tức là: n m . n n n n jiij Qui tắc quyết định: + Lấy mẫu kích thước n, từ mẫu này tính: h 1i k 1j ij 1n 2 ji 2 ij ij mn )n( + Với mức ý nghĩa đã cho, tra bảng 2 với bậc tự do (k-1)(h-1) để tìm (hoặc dùng hàm CHIINV trong Excel). 2 + Nếu 2 > thì bác bỏ H0, thừa nhận H1 2 + Nếu 2 thì có thể chấp nhận H0 2 Thí dụ: Một công ty đã tiến hành khảo sát về sở thích của khách hàng về 3 loại mẫu khác nhau của cùng một loại hàng. Kết quả khảo sát cho ở bảng sau: Với mức ý nghĩa = 0,05, hãy kết luận mẫu hàng có ảnh hưởng đến ý thích của khách hàng hay không. Giải: H0: Mẫu hàng (dấu hiệu A) độc lập (không ảnh hưởng) đến ý thích của khách hàng (dấu hiệu B). H1: Mẫu hàng không độc lập (có ảnh hưởng) đến ý thích của khách hàng. Toån g 115 127 58 Toång 100 100 100 300 100115 30 100115 43 22 j,i ij 100127 35 100115 42 22 025353,1 10058 19 ... 2 h 1i k 1j ij 2 1n = 300(1,025353-1) = 7,6059 Với = 5%, tra bảng 2 với bậc tự do: (3 1)(3 1) = 4 = 9,488 2 05,0 2 Vì 2 = 7,6059 < 9,488 nên ta chấp nhận giả thiết H0 tức mẫu hàng không ảnh hưởng đến ý thích của khách hàng. Tổng kết chương 8 GT thống kê KĐGT về KĐGT về p . . . KĐGT về PPXS KĐGT về sự đ.lập của 2 dấu hiệu K/niệm Cách đặt GTTK Kiểm định tham số Kiểm định phi th.số Cơ sở LT Cơ sở LT Qui tắc q/định Qui tắc q/định Kết luận Bài tập: 8.4; 8.5; 8.21; 8.23; 8.25; 8.26; 8.27; 8.28. Hết chương 8
File đính kèm:
- bai_giang_mon_ly_thuyet_xac_suat_va_thong_ke_toan_chuong_8_k.pdf