Bài giảng Đại cương về mục tiêu, biến số và phân tích số liệu
Định nghĩa Biến số%
• Đặc tính của ngời, vật sự việc, hiện t
ợng biến thiên theo các điều kiện
khác nhau
• Do ngời nghiên cứu lựa chọn phù hợp
với từng mục tiêu nghiên cứu
• Triển khai nghiên cứu chính là thu thập
số liệu cho các biến số này
• Đối lập với biến số là các hằng số
Phân loại theo mối tơng quan giữa các
biến số
Biến độc lập
(phơi nhiễm)
Biến phụ
thuộc (bệnh)
Yếu tố nhiễu
l? Nhiễu là yếu tố làm sai lệch ảnh hởng của phơi nhiễm
với bệnh (thay đổi độ lớn và ý nghĩa thống kê)
l? Biến độc lập, phụ thuộc và nhiễu đợc xác định bởi ng
ời nghiên cứu và chỉ có ý nghĩa trong nghiên cứu đó.
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Đại cương về mục tiêu, biến số và phân tích số liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Đại cương về mục tiêu, biến số và phân tích số liệu
1 Đại cương về Mục tiêu, Biến số và Phân tích số liệu % Lưu Ngọc Hoạt Viện YHDP và YTCC, ĐH Y Hà Nội MT cụ thể: ỹ Xỏc định tỷ lệ cao HA của người cao tuổi tại huyện A. ỹ Xỏc định một số yếu tố liờn quan đến tỡnh trạng cao HA. ỹ Đỏnh giỏ hiệu quả của một số giải phỏp can thiệp làm giảm tỷ lệ tăng huyết ỏp. Tờn đề tài: Huyết ỏp của người dõn tại huyện A năm 2005 và một số yếu tố ảnh hưởng MT chung: Xỏc định tỷ lệ cao HA của người cao tuổi tại huyện A năm 2005 và một số yếu tố ảnh hưởng Mối liờn quan giữa tờn đề tài, mục tiờu chung và mục tiờu cụ thể M ục t iờ u 3 M ục t iờ u 2 M ục t iờ u 1 Mục tiờu chu g % % Tờn đề tài M ục t iờ u 3 M ục t iờ u 2 M ục t iờ u 1 Mục tiờu chung Tờn đề tài Cao HA của người cao tuổi tại huyện A năm 2005 và một số yếu tố ảnh hưởng • Xỏc định tỷ lệ cao HA của người cao tuổi tại huyện A năm 2005 và một số yếu tố ảnh hưởng ỹ Xỏc định tỷ lệ cao HA của người cao tuổi tại huyện A. ỹ Xỏc định một số yếu tố liờn quan đến tỡnh trạng cao HA. ỹ Đề xuất (và thăm dũ) một số giải phỏp can thiệp làm giảm tỷ lệ tăng huyết ỏp. M ục t iờ u 3 M ục t iờ u 2 M ục t iờ u 1 Mục tiờu chung Biến số 1 Biến số 2 Biến số 3 Biến số 4 Mối liờn quan giữa một số thành phần của NC Biến số 1 Biến số 2 Biến số 3 Biến số 4 Biến số 1 Biến số 2 Biến số 3 Biến số 4 Tờn đề tài Định nghĩa Biến số% • Đặc tính của người, vật sự việc, hiện tư ợng biến thiên theo các điều kiện khác nhau • Do người nghiên cứu lựa chọn phù hợp với từng mục tiêu nghiên cứu • Triển khai nghiên cứu chính là thu thập số liệu cho các biến số này • Đối lập với biến số là các hằng số 2 Phân loại theo bản chất của biến số Biến định lượng Biến định tính Biến liên tục Biến rời rạc Biến tỷ suất Biến khoảng chia Biến danh mục Biến thứ hạng Biến nhị phân Bài tập 1: Phân loại các biến số Định tính Định lượng Danh mục Thứ hạng Nhị phân Khoảng chia Tỷ suất Liên tục Rời rạc Tuổi Hàm lượng đường huyết Độ cận, viễn của mắt (đi ốp) Số lượng hồng cầu Nhiệt độ không khí Giới Dân tộc Trình độ văn hoá Số vi khuẩn/vi trư ờng Bài tập 1: Phân loại các biến số Định tính Định lượng Danh mục Thứ hạng Nhị phân Khoảng chia Tỷ suất Liên tục Rời rạc Tuổi X X X Hàm lượng đường huyết X X X Độ cận, viễn của mắt (đi ốp) X X X Số lượng hồng cầu X X X Nhiệt độ không khí X X X Giới X X Dân tộc X X Trình độ văn hoá X X Số vi khuẩn/vi trư ờng X X X Phân loại theo mối tương quan giữa các biến số Biến độc lập (phơi nhiễm) Biến phụ thuộc (bệnh) Yếu tố nhiễu l Nhiễu là yếu tố làm sai lệch ảnh hưởng của phơi nhiễm với bệnh (thay đổi độ lớn và ý nghĩa thống kê) l Biến độc lập, phụ thuộc và nhiễu được xác định bởi ngư ời nghiên cứu và chỉ có ý nghĩa trong nghiên cứu đó. 3 Tiêu chuẩn của 1 yếu tố nhiễu% v Phải là 1 yếu tố nguy cơ đối với bệnh v Phải có liên quan đối với phơi nhiễm như ng không lệ thuộc vào phơi nhiễm v Không phải là yếu tố trung gian giữa phơi nhiễm và bệnh v Phải thực sự tác động lên mối tương quan giữa phơi nhiễm và bệnh (khẳng định khi phân tích số liệu) v Có thể đổi chỗ cho yếu tố phơi nhiễm tuỳ theo mục đích người làm nghiên cứu Trường hợp nào sau đây là nhiễu?% E E E D E E D D D D D D E E E D D E F F F F F F F F F Bài tập Nếu muốn xác định các biến số cần và đủ cho một nghiên cứu thì cần dựa vào cách nào dưới đây (chọn cách mà Anh/Chị cho là hợp lý nhất)? A. Kinh nghiệm của các nghiên cứu tưõng tự đã được tác giả khác triển khai, B. Cây vấn đề được phát triển từ đề tài nghiên cứu C. Kế hoạch trình bày phần kết quả nghiên cứu và bàn luận D. Mục tiêu nghiên cứu Phân biệt thống kê mô tả và thống kê suy luận% • Thống kê mô tả: ‒ là mô tả kết quả thu được từ mẫu nghiên cứu ‒ biểu thị độ lớn, sự phân bố của các tham số của mẫu nghiên cứu như , độ lệch chuẩn, các tỷ lệ, bảng, biểu, đồ thị sự phân bố theo các biến số khác nhau như tuổi, giới, địa dư... • Thống kê suy luận: ‒ là quá trình ngoại suy kết quả nghiên cứu từ mẫu ra quần thể nghiên cứu. ‒ bao gồm 2 phương pháp: ước lượng và kiểm định 4 Quần thể đích% Quần thể nghiên cứu% Mẫu% Tham số quần thể % (à, σ, P...)%Mẫu xác suất% - Ngẫu nhiên đơn ! - Ngẫu nhiên hệ thống! - Mẫu phân tầng ! - Mẫu chùm ! - Mẫu nhiều bậc ! Mẫu không xác suất% - Mẫu kinh nghiệm % - Mẫu thuận tiện ! - Mẫu chỉ tiêu! - Mẫu có mục đích.% Chọn mẫu % Ước lượng % • điểm% • khoảng % Kiểm định giả thuyết% Suy luận thông kê (Chỉ áp dụng cho mẫu xác suất với cỡ mẫu đủ lớn) % Kết luận ngoại suy ! Các test thống kê Giá trị p Lựa chọn! Mô tả các tham số mẫu% (trình bày kết quả nghiên cưú) % Tham số mẫu% ( , s, p...)!XBiến số ! Thống kê mô tả % Thống kê suy luận% 1. Thống kê mô tả % Bài tập Nếu một người nghiờn cứu muốn thu thập số liệu về huyết ỏp tối đa của cỏc đối tượng NC, cỏch thu thập nào dưới đõy Anh/Chị cho là hợp lý nhất? A. Phõn huyết ỏp thành cỏc nhúm (vớ dụ < 90 mmHg; 90-120; 121-140...) sau đú chọn nhúm thớch hợp B. Ghi đầy đủ trị số huyết ỏp tối đa của từng đối tượng. C. Phõn đối tượng thành hai loại cú và khụng cao huyết ỏp tối đa D. Phõn thành cỏc nhúm: huyết ỏp thấp, bỡnh thường, cao và rất cao Bài tập Nếu một người nghiờn cứu muốn thu thập số liệu về số điếu thuốc lỏ một người hỳt trung bỡnh/ngày, cỏch thu thập nào dưới đõy Anh/Chị cho là hợp lý nhất? A. Phõn thành cỏc nhúm (vớ dụ < 5 điếu; 5-10; 11-15; 16-20...) sau đú chọn nhúm thớch hợp B. Ghi chớnh xỏc số điếu thuốc hỳt trung bỡnh mà đối tượng đó trả lời. C. Phõn đối tượng thành hai loại: hỳt trờn 1 bao hoặc dưới một bao D. Phõn thành cỏc nhúm: hỳt nhẹ, hỳt trung bỡnh, hỳt nhiều, hỳt rất nhiều. 5 Ví dụ 1: Mô tả đặc điểm của cân nặng khi đẻ của 500 trẻ mới sinh tại bệnh viện M: % 1. Khi cân nặng tính bằng gram (biến định lượng)! ố Đo lường độ tập trung của số liệu: - Giá trị trung bình: với số liệu phân bố chuẩn - Giá trị trung vị: với bộ số liệu phân bố không chuẩn ố Đo lường độ phân tán của bộ số liệu: - Khoảng dao động (Max ‒ Min) - Độ lệch chuẩn 2. Khi cân nặng tính theo mốc < hoặc ≥ 2500 gram (biến định tính) ! ố Tỷ lệ trẻ có cân nặng < 2500 gr Ưu điểm của phân tích số liệu dưới dạng định lượng (ví dụ cân nặng khi đẻ của trẻ)% BA XX >>PA = PB = 10% % 2500 gr % 50 trẻ 450 trẻ B 2500 gr % 50 trẻ 450 trẻ A % Ưu điểm của phân tích số liệu dưới dạng định lượng (tiếp) (Huyết áp tối đa) % PA = PB = 60% % 120 mmHg % 300 người 200 người A 120 mmHg % 300 người 200 người B BA XX ≈ sB >> sA % Các nội dung chính của thống kê mô tả % I. Tổng hợp các biến số% ‒ Với các biến định tính:! • Tần số (frequency)! • Tỷ số (ratio)! • Tỷ lệ (proportion)! • Tỷ suất (rate)! ‒ Với các biến định lượng: ! • Đo lường độ tập trung: giá trị trung bình, trung vị, mốt! • Đo lường độ phân tán: phương sai, độ lệch chuẩn, % 6 Các nội dung chính của thống kê mô tả % II. Trình bày số liệu bằng bảng: % ‒ Bảng 1 chiều % ‒ Bảng 2 chiều% III. Trình bày số liệu bằng biểu và đồ thị % ‒ Đồ thị cột: % • Cột rời, ! • Cột chồng, ! • Cột liên tục ! ‒ Đồ thị hình tròn% ‒ Biểu đồ gấp khúc % ‒ Biểu đồ đa giác % ‒ Biểu đồ chấm (đám mây)% ‒ Bản đồ % 1/ Tổng hợp số liệu với các biến định tính 1.1. Tần số (frequency):% • Biểu thị số lần xuất hiện của 1 quan sát nào đó% • VD : Phân bố nhóm dân tộc trong số 22 người nghiên cứu. 22 %Tổng cộng% 6%Nùng % 12 %Tày% 4%Kinh % Tần số%Đếm số lần xuất hiện%Giá trị biến% 1.2. Tỷ số (ratio):% • Là phân số mà mẫu số không bao hàm tử số n Tử số và mẫu số có thể khác nhau về đơn vị đo lường n Hệ số k có thể là 1, 10, 100, 1000... n Ví dụ: a% --- x k % b% số học sinh nam ---------------------- số học sinh nữ số giường bệnh ---------------------------- dân số trong khu vực 7 1.3. Tỷ lệ (proportion):% : Là 1 phân số mà mẫu số bao hàm tử số, do vậy cả mẫu và tử đều phải cùng đơn vị a% ------- x k % a + b% n Hệ số k có thể là 1, 10, 100, 1000... n Khi k = 100, ta có tỷ lệ phần trăm (percentage)! n Ví dụ:% số học sinh nam Tỷ lệ học sinh nam = ----------------------- tổng số học sinh số người mắc sốt rét Tỷ lệ mắc sốt rét = ---------------------------------- tổng số người được khám 1.4. Tỷ suất (rate):% • Là 1 dạng đặc biệt của tỷ lệ khi nó được đo lư ờng trong một khoảng thời gian nhất định • Ví dụ: số biến cố xẩy ra trong 1 khoảng thời gian ------------------------------------------------------------ x k dân số trung bình trong khoảng thời gian đó n Hệ số k có thể là 1, 10, 100, 1000... n Ví dụ:% số người bị sốt rét tại huyện A năm 2000 ------------------------------------------------------------- x 100 dân số trung bình của huyện A trong năm đó 2/ Tổng hợp số liệu với các biến định lượng 2.1. Đo lường độ tập trung: Bài tập Tham số nào là thớch hợp nhất để đo lường độ tập trung của bộ số liệu dưới đõy: 12, 15, 17, 20, 23, 24, 26, 28, 80 A. Trung vị B. Khoảng phần trăm C. Giỏ trị trung bỡnh D. Độ lệch chuẩn 8 • Được tính bằng tổng số các giá trị quan sát đư ợc chia cho số lần quan sát. • Giá trị trung bình chỉ tính được với các số dạng liệu số (biến định lượng) • Ví dụ:! ‒ Chiều cao của 7 em gái đo được như sau: ‒ 141, 141, 143, 144, 145, 146, 155 cm (tổng cộng tất cả chiều cao là 1015 cm) ‒ Vì vậy trung bình bằng 1015/7, tức là 145 cm. n X n XXXX n i i n ∑ == +++ = 121 ... v Trung bình số học (trung bình cộng): • Là giá trị giữa của 1 bộ số liệu khi chúng được sắp xếp theo thứ tự tăng dần hoặc giảm dần. • Giá trị này chia sự phân bố của số liệu thành hai phần bằng nhau ! • Ví dụ:! ‒ ta có bộ số liệu: 47, 41, 44, 43, 42, 40, 72 kg. ‒ để tính trung vị, trước hết sắp xếp số liệu theo thứ tự: 40, 41, 42, 43, 44, 47, 72 kg. ‒ trung vị sẽ là giá trị của quan sát thứ (n+1)/2, tức là (7+1)/2 =4, và giá trị thứ 4 = 43 kg là trung vị. ‒ Với bộ số liệu: 40, 41, 42, 43, 44, 47, 49 và 72 thì trung vị là giá trị trung bình cộng của giá trị thứ 4 và thứ 5 = (43+44)/2 = 43,5 v Trung vị (giá trị trung tâm): • Là giá trị quan sát được nhiều lần nhất trong bộ số liệu • Trong bộ số liệu dưới đây:141, 141, 143, 144, 145, 146, 155 thì 141 được coi là mốt vì quan sát được nhiều lần nhất. • Mốt ít có giá trị trong đo lường độ tập trung của bộ số liệu khi ở dạng định lượng, nhưng có giá trị với bộ số liệu phân nhóm, hoặc biến định tính • Ví dụ: Trong bảng dưới, nhóm tuổi 36-45 là mốt Nhóm tuổi Tần số Nhóm tuổi Tần số Nhóm tuổi Tần số < 5 15 26-35 67 56-65 43 5-15 24 36-45 120 66-75 27 16-25 32 46-55 94 >75 12 v Mốt: Phân biệt về giá trị trung bình, trung vị và mốt: Mốt = 10 Trung vị = 11 Trung bình = 11,3 Đo lường (cm) 9 Ví dụ phân bố chuẩn% Fr eq ue nc y bwt 709 % 4990 % 0 % 29 % Phân biệt về giá trị trung bình, trung vị và mốt (tiếp): • Giá trị trung bình được sử dụng thường xuyên hơn và có giá trị khi bộ số liệu là 1 phân bố chuẩn. % • Khi bộ số liệu phân bố không chuẩn, trung vị có ý nghĩa hơn:% • Ví dụ: ! ‒ Với bộ số liệu này: 40, 41, 42, 43, 44, 47, 72 thì giá trị trung bình = 47, trong khi giá trị trung vị bằng 43. ‒ Nếu ta thay giá trị 72 trong bộ số liệu trên = 51, giá trị trung vị không đổi, nhưng giá trị trung bình chỉ còn là 44! 2/ Tổng hợp số liệu với các biến định lượng (tiếp) 2.2. Đo lường độ phân tán: v Khoảng số liệu (range): % ‒ Là hiệu giữa hai giá trị đo lường cao nhất và thấp nhất trong một bộ số liệu. ‒ Khoảng số liệu (R) = Xmax ‒ Xmin • Ví dụ: nếu cân nặng của 7 phụ nữ là 40, 41, 42, 43, 44, 47 và 72 kg, khoảng quan sát sẽ là 72 - 40 = 32 kg.% 1 )( 1 2 2 − − = ∑ = n XXi s n i v Phương sai (variance)% ‒ Là tổng bình phương các khoảng cách giữa giá trị quan sát so với giá trị trung bình chia cho số các quan sát trừ đi 1. v Độ lệch chuẩn (standard deviation)% 2ss = 10 v Ví dụ minh hoạ: X v Ví dụ minh hoạ (tiếp): 6 10 0 30 Σ 1 2 1 0 4 Bình phương khoảng chênh lệch giữa giá trị quan sát so với giá trị trung bình 1 2 -1 0 -2 Khoảng chênh lệch so với giá trị trung bình 7 8 5 6 4 Tỷ lệ phụ nữ làm kinh tế giỏi (Xi) 01 00 99 98 97 )( XXi − 5,2 4 10 1 )( 1 2 2 == − − = ∑ = n XXi s n i X 2)( XXi − 58,15,2 ==⇒ s v Hệ số biến thiên (coeficient of variation)% • Là tỷ số giữa độ lệch chuẩn và trị tuyệt đối của giá trị trung bình • Hệ số biến thiên được biểu thị bằng tỷ lệ phần trăm (%) và biểu thị mức độ biến thiên của độ lệch chuẩn so với giá trị trung bình • Giúp cho việc so sánh mức độ phân tán của nhiều bộ số liệu với nhau: • Ví dụ:! • CV của cân nặng nam =12/60 = 20% • CV của cân nặng nữ = 8/54 = 15% • Vậy bộ số liệu của cân nặng nam phân tán hơn X sCV = 8 54 Cân nặng nữ thanh niên 12 60 Cân nặng nam thanh niên s X • Thống kê mô tả: Quan tâm đến mẫu NC ‒ Tổng hợp số liệu: • tỷ lệ, tỷ số, tỷ suất • Độ tập trung, độ phân tán của bộ số liệu định lượng ‒ Trình bày kết quả nghiên cứu: • Bảng • Biểu đồ, đồ thị • Thống kê suy luận: quan tâm đến quần thể ‒ Ước lượng : • Điểm, • Khoảng ‒ Kiểm định giả thuyết • Khác nhau • Tương quan 11 2. Thống kê suy luận % 2.1. Ước lượng điểm, khoảng% Phân biệt ước lượng và kiểm định% • ước lượng: ‒ ngoại suy từ tham số mẫu ra tham số quần thể: ‒ từ trung bình của mẫu ( ) sang TB quần thể (à) ‒ từ tỷ lệ của mẫu (p) sang tỷ lệ của quần thể (P) ‒ từ OR, RR, r của mẫu ra quần thể. • Kiểm định giả thuyết: ‒ so sánh 2 hoặc nhiều quần thể NC từ sự khác biệt của 2 hoặc nhiều mẫu rút ra từ các quần thể đó. ‒ kiểm định mối tương quan của quần thể dựa theo mối tương quan thu được từ mẫu X Ví dụ: Cân nặng khi đẻ của trẻ mới sinh tại huyện A: tham số mẫu và quần thể % Trẻ sơ sinh% tại huyện A % 5000 trẻ % Mẫu% 500 trẻ % 12802954±=± sXTham số mẫu: ??±=±σàTham số QT: ước lượng hay kiểm định? Ví dụ: Cân nặng khi đẻ của trẻ mới sinh tại huyện A: tham số mẫu và quần thể % Trẻ sơ sinh% tại huyện A % 5000 trẻ % Mẫu% 500 trẻ % Tỷ lệ trẻ (p) có cân nặng < 2500 gram = 20% ước lượng hay kiểm định? Tỷ lệ trẻ (P) có cân nặng < 2500 gram = ? 12 Ví dụ: Cân nặng khi đẻ của trẻ mới sinh tại huyện A và huyện B % Trẻ sơ sinh% tại huyện A % 5000 trẻ % Trẻ sơ sinh% tại huyện B % 6000 trẻ % Mẫu% 500 trẻ % Mẫu B % 500 trẻ % ? 12802954± 8862785±> ước lượng hay kiểm định? * Ước lượng điểm:% X=à P = p ! + Với biến định lượng: ố + Với biến định tính: ố n Nhược điểm của ước lượng điểm: n Ví dụ điểm thi của 9 sinh viên Sinh viên số 1 2 3 4 5 6 7 8 9 Điểm đạt được 9 8 7 9 6 4 5 8 3 Nếu coi 9 sinh viên này là 1 quần thể ố 56,6 9 385469789 = ++++++++ =à Nếu ch ... ượng% Môí liên quan giữa tuổi và huyết áp tối đa % sb p age 17 70 110 220 - Hệ số tương quan r - Phương trình hồi quy tuyến tính Bảng lựa chọn test thống kê % Biến độc lập Biến Phụ thuộc 1 biến định tính >2 biến định tính 1 định lư ợng 1 định tính, 1 định lư ợng Nhiều biến định tính và/hoặc định lượng Có 2 nhóm Trên 2 nhóm 1 biến định lư ợng Test t Test ANOVA Factorial design (thừa số) Hệ số tư ơng quan r hoặc hồi quy tuyến tính ANCOVA Phân tích hồi quy đa biến 1 biến nhị phân OR, RR, χ2 hoặc Fisher test χ2 hoặc Fisher test Phân tích tầng Test t Factorial design (thừa số) Hồi quy logistics 1 biến định tính χ2 hoặc Fisher test χ2 hoặc Fisher test Phân tích tầng ANOVA Factorial design (thừa số) 17 Một số test thường dùng% ỉ Test t student: ỉ Test Khi bình phương ỉ Test ANOVA ỉ Hồi quy và hệ số tương quan ỉ Test Khi bình phương của Mc. Nemar ỉ Test t ghép cặp ỉ Một số test phi tham số khác như test Mann-Whitney U test, Wilcoxon signed- rank test )( 2χ Test t ghép cặp% x1 x2 d = x1 ‒ x2 1,5 1,7 - 0,2 1,7 1,9 - 0.2 2,1 2,2 - 0,1 1,6 1,9 - 0,3 2,4 2,4 0 Tổng - 0,8 - 0,8/5 = - 0,16 d Chức năng hô hấp của 5 bệnh nhân hen trư ớc và sau khi dùng thuốc ! ( ) ( ) .14,3 051,0 16,0 051,0 5 114,0 114,0 )}1/(])({[ 2 −= − == === = −−∑= d d d d SE dt n sSE s ndds Tra bảng t với độ tự do % n - 1 = 4, ta có p < 0,04 %ĐK: Phân bố của d phải chuẩn Test của Mc. Nemar % Trước điều trị Tổng Thấp BT Sau điều trị Thấp a b a + b BT c d c + d Tổng a + c b + d 2χ ; c bOR = Chức năng hô hấp của bệnh nhân hen trư ớc và sau khi dùng thuốc ! cb cb + − = 2 2 )(χ Mann-Whitney U test% • Chỉ định: So sánh 2 nhóm độc lập khi số liệu là định lượng hoặc thứ hạng, phân bố không chuẩn • Ví dụ: So sánh tác dụng điều trị đau đầu của Aspirin và placebo thông qua việc tự cho điểm của bệnh nhân Aspirin n=8 7,5 8,3 9,1 6,2 5,4 8,3 6,5 8,4 Placebo n=10 3,1 5,6 4,5 6,2 5,1 5,3 5,5 4,1 4,3 4,2 • Xếp thứ tự các giá trị điểm trên không phân biệt nhóm Quan sát 3,1 4,1 4,2 4,3 4,5 5,1 5,3 5,4 5,5 Thứ tự 1 2 3 4 5 6 7 8 9 Quan sát 5,6 6,2 6,2 6,5 7,5 8,3 8,3 8,4 9,1 Thứ tự 10 11,5 11,5 13 14 15,5 15,5 17 18 18 Mann-Whitney U test (tiếp)% • Tính tổng xếp hạng của nhóm điều trị (aspirin): • T = 8+11,5+13+14+15+16+17+18 = 112,5 • Tính Z theo công thức: • Tra bảng Z ta được p <0,003 ]12/)1([ 2/)1( 2121 211 ++ ++− = nnnn nnnTZ 24,3 ]12/)1108(108[ 2/)1108(85,112 = ++ ++− = x Z Wilcoxon signed-rank test % • Chỉ định: So sánh 2 nhóm ghép cặp khi số liệu là định lượng hoặc thứ hạng, phân bố không chuẩn • Ví dụ: So sánh ảnh hưởng của số năm uống thuốc tránh thai trên bệnh K vú trong 1 NC bệnh-chứng ghép cặp Cặp 1 2 3 4 5 6 7 8 9 10 Ung thư 2,0 10,0 7,1 2,3 3,0 4,1 10,0 10,5 12,1 15,0 Chứng 1,5 9,1 8,1 1,5 3,1 5,2 1,0 9,6 7,6 9,0 Chênh lệch 0,5 0,9 -1,0 0,8 -0,1 -1,1 9,0 0,9 4,5 6,0 Bỏ dấu 0,5 0,9 1,0 0,8 0,1 1,1 9,0 0,9 4,5 6,0 Thứ tự 2 4,5 6 3 1 7 10 4,5 8 9 Thứ tự có dấu 2 4,5 -6 3 -1 -7 10 4,5 8 9 Wilcoxon signed-rank test (tiếp)% • Tính tổng thứ hạng mang dấu dương T (bỏ các thứ hạng mang dấu âm): • T = 2 + 4,5 + 3 + 10 + 4,5 + 8 + 9 = 41,0 • áp dụng công thức: • Tra bảng Z ta có p = 0,16 ]24/)12)(1([ 4/)1( ++ +− = nnn nnTZ 4,1 ]24/)120)(110(10[ 4/)110(1041 = ++ +− =Z Phân tích hồi quy và tư ơng quan trong NCKH 19 Các bước xác định mối tương quan giữa 2 biến định lượng% 1. Chọn biến thích hợp để xác định mối tương quan:! 2. Biểu thị mối tương quan giữa 2 biến thích hợp bằng biểu đồ chấm:! 3. Viết phương trình hồi quy tuyến tính nếu thích hợp ! 4. Xác định hệ số tương quan (r)! 1. Chọn biến thích hợp để xác định mối tương quan:% * Ví dụ nào dưới đây là thích hợp để xác định mối tương quan giữa 2 biến định lượng: • Hàm lượng chất độc trong máu và chất độc trong nước tiểu trên 1 nhóm đối tượng nghiên cứu ! • Hàm lượng mỡ trong thức ăn và hàm lượng mỡ trong máu của người ăn thường ăn thức ăn đó,! • Số lượng hồng cầu trong máu và độ cao nơi người đó sống so với mặt biển ! • Chiều cao thanh niên giữa vùng thành thị và nông thôn ! • Chiều cao của bố liên quan đến chiều cao của con ! 2. Biểu thị mối tương quan giữa 2 biến thích hợp bằng biểu đồ chấm:% • Vẽ đồ thị • Quan sát đồ thị, mô tả mối tương quan: ỉ Có tương quan hay không? ! ỉ Tương quan là tuyến tính hay không? ! ỉ Tương quan tuyến tính có rõ ràng hay không? ! ỉ Tương quan là thuận hay nghịch ! ỉ Có thể viết phương trình hồi quy tuyến tính cho mối tương quan hay không? ! ỉ Làm thế nào để cải thiện và xác định đúng mối tư ơng quan giữa hai biến số này? ! • Bằng biện pháp làm sạch số liệu? • Bằng cách tách chia nhỏ bộ số liệu? gr sbp age: sb p age 17 70 110 220 20 gr sbp age, s([_n]) drop in 70 sb p age 17 70 110 220 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 sb p age 17 70 110 185 - predict yhat - gr sbp yhat age, c(.l) age sbp Fitted values 17 70 110 185 3. Phương trình hồi quy tuyến tính 3.1. Viết phương trình: % Dạng tổng quát: , 'y = a + bx '! trong đó: ,! • X giá trị của biến độc lập ! • Y giá trị của biến phụ thuộc ứng với giá trị X ! • b hệ số hồi quy biểu thị độ dốc của đường hồi quy:% • a là số chặn được tính bằng công thức: % • Giá trị a là bằng y khi x bằng 0 (zero). ! ∑ ∑ ∑ ∑ ∑ ∑ ∑ − − = − −− = n x x n yx yx xx yyxx b i i ii ii 2 2 2 )( ))(( )( ))(( xbya −= 21 3.2. Xem xét mối liên quan giữa Y và X có ý nghĩa thống kê hay không? • Kiểm định với test t theo công thức: % • Tra bảng t với độ tự do = n - 2 để xác định t tư ơng ứng với α% • Kết luận dựa vào sự khác biệt giữa t tra từ bảng và t tính từ công thức. % 2 222 )()2( )()()( XXn XXbYY b bSE bt −− −−− == ∑ ∑ ∑ 3.3. Ước lượng hệ số hồi quy b từ mẫu ra quần thể: • Hệ số hồi quy của quần thể được ký hiệu là β % • Số chặn của quần thể được ký hiệu là α % • Công thức ước lượng khoảng cho hệ số hồi quy β của quần thể: % % • * Chú ý: Hệ số hồi quy β và số chặn α này khác với α và β trong xác định độ tin cậy % 2 222 2/ )()2( )()( XXn XXbYY tb −− −−− ± ∑ ∑ ∑ ∝ Viết phương trình hồi quy theo STATA: Lệnh: reg sbp age % Source | SS df MS Number of obs = 69 ---------+------------------------------ F( 1, 67) = 121.27 Model | 14951.2546 1 14951.2546 Prob > F = 0.0000 Residual | 8260.51351 67 123.291246 R-squared = 0.6441 ---------+------------------------------ Adj R-squared = 0.6388 Total | 23211.7681 68 341.349531 Root MSE = 11.104 -------------------------------------------------------------------- sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+---------------------------------------------------------- age | .9833276 .0892947 11.012 0.000 .8050947 - 1.161561 _cons | 103.3491 4.331896 23.858 0.000 94.70256 - 111.9956 ---------------------------------------------------------- • Huyết áp tối đa = 103,35 + 0,98 tuổi% • Biến tuổi đóng góp 64% sự biến đổi của huyết áp tối đa % * Điều kiện để có thể viết được phương trình hồi quy giữa 2 biến định lượng • Biểu đồ chấm thể hiện mối tương quan tuyến tính rõ% • Có 1 mối quan hệ nhân quả giữa 2 biến % • Biến x được lựa chọn bởi người nghiên cứu (không ngẫu nhiên) trong khi biến y là ngẫu nhiên.% • Phân bố các giá trị của cả biến x và y phải chuẩn, % • Một giá trị của x thường cho 1 tập hợp các giá trị của y và chúng phải có các điều kiện sau:% ỉ Các tập hợp này phải được phân bố chuẩn! ỉ Chúng có cùng giá trị phương sai! ỉ Giá trị trung bình của các tập hợp này phải nằm trên 1 đường thẳng (chính là đường hồi quy)! • Các giá trị y là độc lập với nhau, tức là không phụ thuộc vào các giá trị khác nhau của x.% 22 4. Hệ số tương quan (r) • Chỉ áp dụng với 2 biến định lượng có quan hệ nhân quả, tuy nhiên không cần biết biến nào là phụ thuộc hoặc độc lập! ! 4.1. Đo lường độ lớn của tương quan: % • Hệ số tương quan % • Hoặc: ∑ ∑ ∑ −− −− = 22 )()( ))(( YYXX YYXX r ∑ ∑∑ ∑ ∑ ∑ ∑ −− − = 2222 )()( ))(( iiii iiii yynxxn yxyxn r 4.2. Một số đặc tính của hệ số tư ơng quan (r): • Chỉ biểu thị mối tương quan tuyến tính! • r dao động trong khoảng từ -1 đến +1. ! • r càng gần 1 hoặc - 1 thì mối tương quan giữa 2 biến càng lớn; ! • r càng gần 0 (zero) thì tương quan càng nhỏ. ! • Khi r = 0, hai biến không có sự tương quan tuyến tính (nhưng có thể có tương quan dạng khác).! • r là hệ số tương quan xác định từ mẫu, trong khi hệ số tương quan của quần thể là rho (ρ). ! 4.3. Kiểm định giả thuyết cho giá trị r: • Giả thuyết ,Ho: ,ρ = 0 % , , , ,Ha: ,ρ ≠ 0% • Test thống kê:, % • Tra bảng t-student với độ tự do = n - 2 và α tư ơng ứng. % • Kết luận: Nếu t tính từ công thức > t tra từ bảng à tức là p < α; Ho bị loại bỏ và mối tương quan giữa 2 biến có ý nghĩa thống kê và ngược lại. ,% 22 1 2 )2( )1()( r nr n r r rSE rt − − = − − == 4.4. Hệ số tương quan và hệ số xác định: • Tham số mẫu:,% % • Tham số quần thể: ,% % • ý nghĩa của hệ số xác định: % 2rr = 2ρρ = r2 = 0,25 r2 = 0,15 r2 = 0,50 Y Y Y X X X 23 5. Ví dụ về một số bộ số liệu không thích hợp với hồi quy và tương quan: % X1 ! Y1 ! X2 ! Y2 ! X3 ! Y3 ! X4 ! Y4 ! 10 % 8.04 % 10 % 9.14 % 10 % 7.46 % 8 % 6.58 % 8 % 6.95 % 8 % 8.14 % 8 % 6.77 % 8 % 5.76 % 13 % 7.58 % 13 % 8.74 % 13 % 12.74 % 8 % 7.71 % 9 % 8.81 % 9 % 8.77 % 9 % 7.11 % 8 % 8.84 % 11 % 8.33 % 11 % 9.26 % 11 % 7.81 % 8 % 8.47 % 14 % 9.96 % 14 % 8.1 % 14 % 8.84 % 8 % 7.04 % 6 % 7.24 % 6 % 6.13 % 6 % 6.08 % 8 % 5.25 % 4 % 4.26 % 4 % 3.1 % 4 % 5.39 % 19 % 12.5 % 12 % 10.84 % 12 % 9.13 % 12 % 8.15 % 8 % 5.56 % 7 % 4.82 % 7 % 7.26 % 7 % 6.42 % 8 % 7.91 % 5 % 5.68 % 5 % 4.74 % 5 % 5.73 % 8 % 6.89 % - Lệnh: reg y1 x1 Source | SS df MS Number of obs = 11 ---------+------------------------------ F( 1, 9) = 17.99 Model | 27.5100011 1 27.5100011 Prob > F = 0.0022 Residual | 13.7626904 9 1.52918783 R-squared = 0.6665 ---------+------------------------------ Adj R-squared = 0.6295 Total | 41.2726916 10 4.12726916 Root MSE = 1.2366 -------------------------------------------------------------------- y1 | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+---------------------------------------------------------- x1 | .5000909 .1179055 4.241 0.002 .2333701 - .7668117 _cons | 3.000091 1.124747 2.667 0.026 .4557369 - 5.544445 -------------------------------------------------------------------- - Lệnh: reg y2 x2 Source | SS df MS Number of obs = 11 ---------+------------------------------ F( 1, 9) = 17.97 Model | 27.5000024 1 27.5000024 Prob > F = 0.0022 Residual | 13.776294 9 1.53069933 R-squared = 0.6662 ---------+------------------------------ Adj R-squared = 0.6292 Total | 41.2762964 10 4.12762964 Root MSE = 1.2372 -------------------------------------------------------------------- y2 | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+---------------------------------------------------------- x2 | .5 .1179638 4.239 0.002 .2331475 - .7668526 _cons | 3.000909 1.125303 2.667 0.026 .4552978 - 5.54652 -------------------------------------------------------------------- Lệnh reg Y1 X1 24 Lệnh reg Y2 X2 Lệnh reg Y3 X3 Lệnh reg Y4 X4 Phân biệt sai số ngẫu nhiên và sai số hệ thống% oo oo oo oo oo oo oo oo o oo oooo oooooooooo oooooooooooooooooooooooo oooooooooo oooo oo Sai số% hệ thống% May rủi% 80 % 90 % mmHg% A (đúng)% % B (sai)% % 25 Sai số ngẫu nhiên và sai số hệ thống% ** **** ** ** **** ** * * * * * * * * * * * * * * * * * * * * * * * * * * * * Khái niệm về nhiễu % Mức độ lệ thuộc Insulin Tỡnh trạng sống sút Khụng Cú Sống 326 253 Chết 218 105 Tổng cộng 544 358 Tỷ lệ chết 40% 29% Tầng 1 < 40 tuổi Mức độ lệ thuộc Insulin Tỡnh trạng sống sút Khụng Cú Sống 15 129 Chết 0 1 Tổng cộng 15 130 Tỷ lệ chết 0% 1% Tầng 1 ≥ 40 tuổi Mức độ lệ thuộc Insulin Tỡnh trạng sống sút Khụng Cú Sống 311 124 Chết 218 104 Tổng cộng 529 228 Tỷ lệ chết 41% 46% Khái niệm về nhiễu và tác động tương hỗ% Loại nghiên cứu ! Giá trị chung và theo tầng ! Nhận xét! Tầng 1 ! Tầng 2 ! Chung 2 tầng (crude) ! 1 2 3 Thuần tập (RR) Thuần tập (RR) Bệnh chứng (OR) 1,02 1,74 0,96 1,86 3,00 0,45 4,00 1,00 1,83 Nhiễu và có tác động tương hỗ giữa các tầng 4 5 6 Thuần tập (RR) Thuần tập (RR) Bệnh chứng (OR) 4,00 1,00 1,83 4,00 1,00 1,83 4,00 1,00 1,83 Không nhiễu và không có tác động tương hỗ 7 8 9 Thuần tập (RR) Thuần tập (RR) Bệnh chứng (OR) 1,01 3,00 0,83 1,01 3,00 0,83 4,00 1,00 1,83 Nhiễu và không có tác động tư ơng hỗ 10 11 12 Thuần tập (RR) Thuần tập (RR) Bệnh chứng (OR) 1,07 3,00 0,36 9,40 0,33 6,00 4,00 1,00 1,83 Tác động tương hỗ rất lớn à làm lu mờ nhiễu Phơi nhiễm Bệnh Tổng Có Không Có 200 800 1000 Không 50 950 1000 Tổng 250 1,750 2,000 Tầng 1: Có yếu tố nhiễu Phơi nhiễm Bệnh Tổng Có Không Có 194 706 900 Không 21 79 100 Tổng 215 785 1000 Tầng 2: Không có YT nhiễu Phơi nhiễm Bệnh Tổng Có Không Có 6 94 100 Không 29 871 900 Tổng 35 965 1000 RR hiệu chỉnh = 1.14 ! Ví dụ về việc phân tích tầng khử nhiễu 26 Phương pháp khử nhiễu tối ưu • Hồi quy đa biến: Y = a + b1X1 + b2X2 + b3X3 +...... + biXi • Hồi quy logistics )...( 3322111 1 ii xbxbxbxbae Y +++++−+ = Một số test thống kê thường dùng khác Cụng thức Kappa Người đỏnh giỏ 1 + - ∑ Người đỏnh giỏ 2 + a b p1 - c d q1 ∑ p2 q2 1 1221 )(2 qpqp bcadK + − = Giỏ trị của Kappa (K) Cỏch giải thớch > 0,75 Rất đồng ý 0,40 - 0,75 Đồng ý (vừa phải) < 0,40 Khụng đồng ý Vớ dụ (bảng tần số) Kỹ thuật viờn XQ 1 + - Tổng số film đọc Kỹ thuật viờn XQ 2 + 1.467 1.309 2.776 - 782 16.232 17.014 Tổng số film đọc 2.249 17.541 19.790 27 Chuyển sang bảng tỷ lệ Kỹ thuật viờn XQ 1 + - Tỷ lệ film đọc Kỹ thuật viờn XQ 2 + 0,0741 0,0662 0,1403 - 0,0395 0,8202 0,8597 Tỷ lệ film đọc 0,1136 0,8864 1 Cỏch tớnh giỏ trị Kappa Kỹ thuật viờn XQ 1 + - Tỷ lệ film đọc KTV XQ 2 + 0,0741 (a) 0,0662 (b) 0,1403 (p1) - 0,0395 (c) 0,8202 (d) 0,8597 (q1) Tỷ lệ film đọc 0,1136 (p2) 0,8864 (q2) 1 1221 )(2 qpqp bcadK + − = Tổng quỏt: Bảng tần số Chuyờn gia 1 + - Tổng số Chuyờn gia 2 + a b (a + b) - c d (c + d) Tổng số (a + c) (b + d) n Tổng quỏt: Bảng tỷ lệ Chuyờn gia 1 + - Tỷ lệ Chuyờn gia 2 + a/n b/n (a + b)/n - c/n d/n (c + d)/n Tỷ lệ (a + c)/n (b + d)/n n/n
File đính kèm:
- bai_giang_dai_cuong_ve_muc_tieu_bien_so_va_phan_tich_so_lieu.pdf