Bài giảng Đại cương về mục tiêu, biến số và phân tích số liệu

Định nghĩa Biến số%

• Đặc tính của ngời, vật sự việc, hiện t

ợng biến thiên theo các điều kiện

khác nhau

• Do ngời nghiên cứu lựa chọn phù hợp

với từng mục tiêu nghiên cứu

• Triển khai nghiên cứu chính là thu thập

số liệu cho các biến số này

• Đối lập với biến số là các hằng số

Phân loại theo mối tơng quan giữa các

biến số

Biến độc lập

(phơi nhiễm)

Biến phụ

thuộc (bệnh)

Yếu tố nhiễu

l?  Nhiễu là yếu tố làm sai lệch ảnh hởng của phơi nhiễm

với bệnh (thay đổi độ lớn và ý nghĩa thống kê)

l?  Biến độc lập, phụ thuộc và nhiễu đợc xác định bởi ng

ời nghiên cứu và chỉ có ý nghĩa trong nghiên cứu đó.

 

pdf 27 trang kimcuc 9240
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Đại cương về mục tiêu, biến số và phân tích số liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Đại cương về mục tiêu, biến số và phân tích số liệu

Bài giảng Đại cương về mục tiêu, biến số và phân tích số liệu
1 
Đại cương về 

Mục tiêu, Biến số và 
Phân tích số liệu %
Lưu Ngọc Hoạt 
Viện YHDP và YTCC, ĐH Y Hà Nội 
MT cụ thể: 
ỹ  Xỏc định tỷ lệ cao HA của 
người cao tuổi tại huyện A. 
ỹ  Xỏc định một số yếu tố liờn 
quan đến tỡnh trạng cao HA. 
ỹ  Đỏnh giỏ hiệu quả của một số 
giải phỏp can thiệp làm giảm 
tỷ lệ tăng huyết ỏp. 
Tờn đề tài: Huyết ỏp của người dõn tại 
huyện A năm 2005 và một số 
yếu tố ảnh hưởng 
 MT chung: Xỏc định tỷ lệ cao HA của người 
cao tuổi tại huyện A năm 2005 
và một số yếu tố ảnh hưởng 
Mối liờn quan giữa tờn đề tài, mục tiờu chung 
và mục tiờu cụ thể 
M
ục
 t
iờ
u 
3 
M
ục
 t
iờ
u 
2 
M
ục
 t
iờ
u 
1 
Mục tiờu chu g 
%
%
Tờn đề tài 
M
ục
 t
iờ
u 
3 
M
ục
 t
iờ
u 
2 
M
ục
 t
iờ
u 
1 
Mục tiờu chung 
Tờn đề tài 
Cao HA của người cao tuổi tại 
huyện A năm 2005 và một số yếu 
tố ảnh hưởng 
•  Xỏc định tỷ lệ cao HA của người 
cao tuổi tại huyện A năm 2005 
và một số yếu tố ảnh hưởng 
ỹ  Xỏc định tỷ lệ cao HA của 
người cao tuổi tại huyện A. 
ỹ  Xỏc định một số yếu tố liờn 
quan đến tỡnh trạng cao HA. 
ỹ  Đề xuất (và thăm dũ) một số 
giải phỏp can thiệp làm giảm 
tỷ lệ tăng huyết ỏp. 
M
ục
 t
iờ
u 
3 
M
ục
 t
iờ
u 
2 
M
ục
 t
iờ
u 
1 
Mục tiờu chung 
Biến số 1 
Biến số 2 
Biến số 3 
Biến số 4 
Mối liờn quan giữa một số thành phần của NC 
Biến số 1 
Biến số 2 
Biến số 3 
Biến số 4 
Biến số 1 
Biến số 2 
Biến số 3 
Biến số 4 
Tờn đề tài	
  
Định nghĩa Biến số%
• Đặc tính của người, vật sự việc, hiện tư
ợng biến thiên theo các điều kiện 
khác nhau 
• Do người nghiên cứu lựa chọn phù hợp 
với từng mục tiêu nghiên cứu 
• Triển khai nghiên cứu chính là thu thập 
số liệu cho các biến số này 
• Đối lập với biến số là các hằng số 
2 
Phân loại theo bản chất của biến số 
Biến định lượng 
Biến định tính 
Biến liên tục 
Biến rời rạc 
Biến tỷ suất 
Biến khoảng chia 
Biến danh mục 
Biến thứ hạng 
Biến nhị phân 
Bài tập 1: Phân loại các biến số 
Định 
tính 
Định 
lượng 
Danh 
mục 
Thứ 
hạng 
Nhị 
phân 
Khoảng 
chia 
Tỷ 
suất 
Liên 
tục 
Rời 
rạc 
Tuổi 
Hàm lượng đường 
huyết 
Độ cận, viễn của 
mắt (đi ốp) 
Số lượng hồng cầu 
Nhiệt độ không khí 
Giới 
Dân tộc 
Trình độ văn hoá 
Số vi khuẩn/vi trư
ờng 
Bài tập 1: Phân loại các biến số 
Định 
tính 
Định 
lượng 
Danh 
mục 
Thứ 
hạng 
Nhị 
phân 
Khoảng 
chia 
Tỷ 
suất 
Liên 
tục 
Rời 
rạc 
Tuổi X X X 
Hàm lượng đường 
huyết 
X X X 
Độ cận, viễn của 
mắt (đi ốp) 
X X X 
Số lượng hồng cầu X X X 
Nhiệt độ không khí X X X 
Giới X X 
Dân tộc X X 
Trình độ văn hoá X X 
Số vi khuẩn/vi trư
ờng 
X X X 
Phân loại theo mối tương quan giữa các 
biến số 
Biến độc lập 
(phơi nhiễm) 
Biến phụ 
thuộc (bệnh) 
Yếu tố nhiễu 
l  Nhiễu là yếu tố làm sai lệch ảnh hưởng của phơi nhiễm 
với bệnh (thay đổi độ lớn và ý nghĩa thống kê) 
l  Biến độc lập, phụ thuộc và nhiễu được xác định bởi ngư
ời nghiên cứu và chỉ có ý nghĩa trong nghiên cứu đó. 
3 
Tiêu chuẩn của 1 yếu tố nhiễu%
v  Phải là 1 yếu tố nguy cơ đối với bệnh 
v  Phải có liên quan đối với phơi nhiễm như
ng không lệ thuộc vào phơi nhiễm 
v  Không phải là yếu tố trung gian giữa phơi 
nhiễm và bệnh 
v  Phải thực sự tác động lên mối tương quan 
giữa phơi nhiễm và bệnh (khẳng định khi 
phân tích số liệu) 
v  Có thể đổi chỗ cho yếu tố phơi nhiễm tuỳ 
theo mục đích người làm nghiên cứu 
Trường hợp nào sau đây là nhiễu?%
E 
E 
E 
D E E D D 
D 
D 
D 
D 
E 
E 
E D 
D E 
F F F 
F 
F 
F F 
F F 
Bài tập 
Nếu muốn xác định các biến số cần và đủ cho 
một nghiên cứu thì cần dựa vào cách nào dưới 
đây (chọn cách mà Anh/Chị cho là hợp lý nhất)? 
A.  Kinh nghiệm của các nghiên cứu tưõng tự đã 
được tác giả khác triển khai, 
B.  Cây vấn đề được phát triển từ đề tài nghiên 
cứu 
C.  Kế hoạch trình bày phần kết quả nghiên cứu 
và bàn luận 
D.  Mục tiêu nghiên cứu 
Phân biệt thống kê mô tả và 
thống kê suy luận%
•  Thống kê mô tả: 
‒  là mô tả kết quả thu được từ mẫu nghiên cứu 
‒  biểu thị độ lớn, sự phân bố của các tham số của 
mẫu nghiên cứu như , độ lệch chuẩn, các tỷ lệ, 
bảng, biểu, đồ thị sự phân bố theo các biến số 
khác nhau như tuổi, giới, địa dư... 
•  Thống kê suy luận: 
‒  là quá trình ngoại suy kết quả nghiên cứu từ mẫu 
ra quần thể nghiên cứu. 
‒  bao gồm 2 phương pháp: ước lượng và kiểm định 
4 
Quần thể đích%
Quần thể 
nghiên cứu%
Mẫu%
Tham số quần thể %
(à, σ, P...)%Mẫu xác suất%
- Ngẫu nhiên đơn !
- Ngẫu nhiên hệ thống!
- Mẫu phân tầng !
- Mẫu chùm !
- Mẫu nhiều bậc !
Mẫu không xác suất%
- Mẫu kinh nghiệm %
- Mẫu thuận tiện !
- Mẫu chỉ tiêu!
- Mẫu có mục đích.%
Chọn 
mẫu %
Ước lượng %
•  điểm%
•  khoảng %
Kiểm định 
giả thuyết%
Suy luận 
thông kê 
(Chỉ áp 
dụng cho 
mẫu xác 
suất với 
cỡ mẫu 
đủ lớn) %
Kết luận ngoại suy !
Các test 
thống kê 
Giá trị p 
Lựa chọn!
Mô tả các tham số mẫu%
(trình bày kết quả nghiên cưú) %
Tham số mẫu%
( , s, p...)!XBiến số !
Thống kê 
mô tả %
Thống kê suy luận%
1. Thống kê mô tả %
Bài tập 
Nếu một người nghiờn cứu muốn thu thập số liệu 
về huyết ỏp tối đa của cỏc đối tượng NC, cỏch thu 
thập nào dưới đõy Anh/Chị cho là hợp lý nhất? 
A.  Phõn huyết ỏp thành cỏc nhúm (vớ dụ < 90 
mmHg; 90-120; 121-140...) sau đú chọn nhúm 
thớch hợp 
B.  Ghi đầy đủ trị số huyết ỏp tối đa của từng đối 
tượng. 
C.  Phõn đối tượng thành hai loại cú và khụng cao 
huyết ỏp tối đa 
D.  Phõn thành cỏc nhúm: huyết ỏp thấp, bỡnh 
thường, cao và rất cao 
Bài tập 
Nếu một người nghiờn cứu muốn thu thập số 
liệu về số điếu thuốc lỏ một người hỳt trung 
bỡnh/ngày, cỏch thu thập nào dưới đõy Anh/Chị 
cho là hợp lý nhất? 
A.  Phõn thành cỏc nhúm (vớ dụ < 5 điếu; 5-10; 
11-15; 16-20...) sau đú chọn nhúm thớch hợp 
B.  Ghi chớnh xỏc số điếu thuốc hỳt trung bỡnh mà 
đối tượng đó trả lời. 
C.  Phõn đối tượng thành hai loại: hỳt trờn 1 bao 
hoặc dưới một bao 
D.  Phõn thành cỏc nhúm: hỳt nhẹ, hỳt trung bỡnh, 
hỳt nhiều, hỳt rất nhiều. 
5 
Ví dụ 1: Mô tả đặc điểm của cân nặng khi 
đẻ của 500 trẻ mới sinh tại bệnh viện M: %
1. Khi cân nặng tính bằng gram (biến định lượng)!
ố Đo lường độ tập trung của số liệu: 
- Giá trị trung bình: với số liệu phân bố chuẩn 
- Giá trị trung vị: với bộ số liệu phân bố không chuẩn 
ố Đo lường độ phân tán của bộ số liệu: 
 - Khoảng dao động (Max ‒ Min) 
 - Độ lệch chuẩn 
2. Khi cân nặng tính theo mốc < hoặc ≥ 2500 
gram (biến định tính) !
ố Tỷ lệ trẻ có cân nặng < 2500 gr 
Ưu điểm của phân tích số liệu dưới dạng 
định lượng (ví dụ cân nặng khi đẻ của trẻ)%
BA XX >>PA = PB = 10% %
2500 gr %
50 trẻ 450 trẻ 
B 
2500 gr %
50 trẻ 450 trẻ 
A 
%
Ưu điểm của phân tích số liệu dưới dạng 
định lượng (tiếp) (Huyết áp tối đa) %
PA = PB = 60% %
120 mmHg %
300 người 200 người 
A 
120 mmHg %
300 người 200 người 
B 
BA XX ≈
sB >> sA %
Các nội dung chính của thống kê mô tả %
I. Tổng hợp các biến số%
‒  Với các biến định tính:!
• Tần số (frequency)!
• Tỷ số (ratio)!
• Tỷ lệ (proportion)!
• Tỷ suất (rate)!
‒  Với các biến định lượng: !
• Đo lường độ tập trung: giá trị trung bình, 
trung vị, mốt!
• Đo lường độ phân tán: phương sai, độ lệch 
chuẩn, %
6 
Các nội dung chính của thống kê mô tả %
II. Trình bày số liệu bằng bảng: %
‒  Bảng 1 chiều %
‒  Bảng 2 chiều%
III. Trình bày số liệu bằng biểu và đồ thị %
‒  Đồ thị cột: %
•  Cột rời, !
•  Cột chồng, !
•  Cột liên tục !
‒  Đồ thị hình tròn%
‒  Biểu đồ gấp khúc %
‒  Biểu đồ đa giác %
‒  Biểu đồ chấm (đám mây)%
‒  Bản đồ %
1/ Tổng hợp số liệu với 
các biến định tính 
1.1. Tần số (frequency):%
•  Biểu thị số lần xuất hiện của 1 quan sát nào đó%
•  VD : Phân bố nhóm dân tộc trong số 22 người 
nghiên cứu. 
22 %Tổng cộng%
 6%Nùng %
12 %Tày%
 4%Kinh %
Tần số%Đếm số lần xuất hiện%Giá trị biến%
1.2. Tỷ số (ratio):%
•  Là phân số mà mẫu số 
không bao hàm tử số 
n  Tử số và mẫu số có thể khác nhau 
về đơn vị đo lường 
n  Hệ số k có thể là 1, 10, 100, 1000... 
n  Ví dụ: 
 a%
--- x k %
 b%
số học sinh nam 
----------------------
số học sinh nữ 
số giường bệnh 
----------------------------
dân số trong khu vực 
7 
1.3. Tỷ lệ (proportion):%
: Là 1 phân số mà mẫu số bao 
hàm tử số, do vậy cả mẫu và 
tử đều phải cùng đơn vị 
 a%
------- x k %
a + b%
n  Hệ số k có thể là 1, 10, 100, 1000... 
n  Khi k = 100, ta có tỷ lệ phần trăm (percentage)!
n  Ví dụ:%
 số học sinh nam 
Tỷ lệ học sinh nam = ----------------------- 
 tổng số học sinh 
 số người mắc sốt rét 
Tỷ lệ mắc sốt rét = ---------------------------------- 
 tổng số người được khám 
1.4. Tỷ suất (rate):%
•  Là 1 dạng đặc biệt của tỷ lệ khi nó được đo lư
ờng trong một khoảng thời gian nhất định 
•  Ví dụ: 
 số biến cố xẩy ra trong 1 khoảng thời gian 
------------------------------------------------------------ x k 
dân số trung bình trong khoảng thời gian đó 
n  Hệ số k có thể là 1, 10, 100, 1000... 
n  Ví dụ:%
 số người bị sốt rét tại huyện A năm 2000 
 ------------------------------------------------------------- x 100 
 dân số trung bình của huyện A trong năm đó 
2/ Tổng hợp số liệu với 
các biến định lượng 
2.1. Đo lường độ tập trung: 
Bài tập 
Tham số nào là thớch hợp nhất để đo 
lường độ tập trung của bộ số liệu dưới 
đõy: 12, 15, 17, 20, 23, 24, 26, 28, 80 
A.  Trung vị 
B.  Khoảng phần trăm 
C.  Giỏ trị trung bỡnh 
D.  Độ lệch chuẩn 
8 
•  Được tính bằng tổng số các giá trị quan sát đư
ợc chia cho số lần quan sát. 
•  Giá trị trung bình chỉ tính được với các số dạng 
liệu số (biến định lượng) 
•  Ví dụ:!
‒  Chiều cao của 7 em gái đo được như sau: 
‒  141, 141, 143, 144, 145, 146, 155 cm (tổng 
cộng tất cả chiều cao là 1015 cm) 
‒  Vì vậy trung bình bằng 1015/7, tức là 145 cm. 
n
X
n
XXXX
n
i
i
n
∑
==
+++
= 121
...
v  Trung bình số học (trung bình cộng): 
•  Là giá trị giữa của 1 bộ số liệu khi chúng được sắp 
xếp theo thứ tự tăng dần hoặc giảm dần. 
•  Giá trị này chia sự phân bố của số liệu thành hai 
phần bằng nhau 
!
•  Ví dụ:!
‒  ta có bộ số liệu: 47, 41, 44, 43, 42, 40, 72 kg. 
‒  để tính trung vị, trước hết sắp xếp số liệu theo thứ tự: 
40, 41, 42, 43, 44, 47, 72 kg. 
‒  trung vị sẽ là giá trị của quan sát thứ (n+1)/2, tức là 
(7+1)/2 =4, và giá trị thứ 4 = 43 kg là trung vị. 
‒  Với bộ số liệu: 40, 41, 42, 43, 44, 47, 49 và 72 thì trung 
vị là giá trị trung bình cộng của giá trị thứ 4 và thứ 5 = 
(43+44)/2 = 43,5 
v  Trung vị (giá trị trung tâm): 
•  Là giá trị quan sát được nhiều lần nhất trong bộ số liệu 
•  Trong bộ số liệu dưới đây:141, 141, 143, 144, 145, 146, 
155 thì 141 được coi là mốt vì quan sát được nhiều lần 
nhất. 
•  Mốt ít có giá trị trong đo lường độ tập trung của bộ số liệu 
khi ở dạng định lượng, nhưng có giá trị với bộ số liệu phân 
nhóm, hoặc biến định tính 
•  Ví dụ: Trong bảng dưới, nhóm tuổi 36-45 là mốt 
Nhóm 
tuổi 
Tần số Nhóm 
tuổi 
Tần số Nhóm tuổi Tần số 
< 5 15 26-35 67 56-65 43 
5-15 24 36-45 120 66-75 27 
16-25 32 46-55 94 >75 12 
v  Mốt: Phân biệt về giá trị trung bình, trung vị 
và mốt: 
Mốt = 10 
Trung vị = 11 
Trung bình = 11,3 
Đo lường (cm) 
9 
Ví dụ phân bố chuẩn%
Fr
eq
ue
nc
y 
bwt 
709 % 4990 %
0 %
29 %
Phân biệt về giá trị trung bình, trung vị 
và mốt (tiếp): 
•  Giá trị trung bình được sử dụng thường xuyên 
hơn và có giá trị khi bộ số liệu là 1 phân bố 
chuẩn. %
•  Khi bộ số liệu phân bố không chuẩn, trung vị có 
ý nghĩa hơn:%
•  Ví dụ: !
‒  Với bộ số liệu này: 40, 41, 42, 43, 44, 47, 72 thì giá 
trị trung bình = 47, trong khi giá trị trung vị bằng 43. 
‒  Nếu ta thay giá trị 72 trong bộ số liệu trên = 51, giá 
trị trung vị không đổi, nhưng giá trị trung bình chỉ còn 
là 44!
2/ Tổng hợp số liệu với các 
biến định lượng (tiếp) 
2.2. Đo lường độ phân tán: 
v  Khoảng số liệu (range): %
‒  Là hiệu giữa hai giá trị đo lường cao nhất và thấp nhất 
trong một bộ số liệu. 
‒  Khoảng số liệu (R) = Xmax ‒ Xmin 
•  Ví dụ: nếu cân nặng của 7 phụ nữ là 40, 41, 42, 43, 44, 
47 và 72 kg, khoảng quan sát sẽ là 72 - 40 = 32 kg.%
1
)(
1
2
2
−
−
=
∑
=
n
XXi
s
n
i
v  Phương sai (variance)%
‒  Là tổng bình phương các 
khoảng cách giữa giá trị quan 
sát so với giá trị trung bình chia 
cho số các quan sát trừ đi 1. 
v  Độ lệch chuẩn (standard 
deviation)%
2ss =
10 
v  Ví dụ minh hoạ: 
X
v  Ví dụ minh hoạ (tiếp): 
6 
10 
0 
30 
Σ 
1 2 1 0 4 
Bình phương khoảng chênh 
lệch giữa giá trị quan sát so 
với giá trị trung bình 
1 2 -1 0 -2 
Khoảng chênh lệch so với giá 
trị trung bình 
7 8 5 6 4 
Tỷ lệ phụ nữ làm kinh tế giỏi 
(Xi) 
01 00 99 98 97 
)( XXi −
5,2
4
10
1
)(
1
2
2 ==
−
−
=
∑
=
n
XXi
s
n
i
X
2)( XXi −
58,15,2 ==⇒ s
v  Hệ số biến thiên (coeficient of variation)%
•  Là tỷ số giữa độ lệch chuẩn và trị tuyệt đối của giá trị trung 
bình 
•  Hệ số biến thiên được biểu thị bằng tỷ lệ phần trăm (%) và 
biểu thị mức độ biến thiên của độ lệch chuẩn so với giá trị 
trung bình 
•  Giúp cho việc so sánh mức độ phân tán của nhiều bộ số liệu 
với nhau: 
•  Ví dụ:!
•  CV của cân nặng nam =12/60 = 20% 
•  CV của cân nặng nữ = 8/54 = 15% 
•  Vậy bộ số liệu của cân nặng nam phân tán hơn 
X
sCV =
8 54 Cân nặng nữ thanh niên 
12 60 Cân nặng nam thanh niên 
s X
•  Thống kê mô tả: Quan tâm đến mẫu NC 
‒  Tổng hợp số liệu: 
• tỷ lệ, tỷ số, tỷ suất 
• Độ tập trung, độ phân tán của bộ số liệu định lượng 
‒  Trình bày kết quả nghiên cứu: 
• Bảng 
• Biểu đồ, đồ thị 
•  Thống kê suy luận: quan tâm đến quần thể 
‒  Ước lượng : 
• Điểm, 
• Khoảng 
‒  Kiểm định giả thuyết 
• Khác nhau 
• Tương quan 
11 
2. Thống kê suy luận %
2.1. Ước lượng điểm, khoảng%
Phân biệt ước lượng và kiểm định%
•  ước lượng: 
‒  ngoại suy từ tham số mẫu ra tham số quần thể: 
‒  từ trung bình của mẫu ( ) sang TB quần thể (à) 
‒  từ tỷ lệ của mẫu (p) sang tỷ lệ của quần thể (P) 
‒  từ OR, RR, r của mẫu ra quần thể. 
•  Kiểm định giả thuyết: 
‒  so sánh 2 hoặc nhiều quần thể NC từ sự khác biệt 
của 2 hoặc nhiều mẫu rút ra từ các quần thể đó. 
‒  kiểm định mối tương quan của quần thể dựa theo 
mối tương quan thu được từ mẫu 
X
Ví dụ: Cân nặng khi đẻ của trẻ mới sinh 
tại huyện A: tham số mẫu và quần thể %
Trẻ sơ sinh%
 tại huyện A %
5000 trẻ %
Mẫu%
500 trẻ %
12802954±=± sXTham số mẫu: 
??±=±σàTham số QT: 
ước lượng hay kiểm định? 
Ví dụ: Cân nặng khi đẻ của trẻ mới sinh 
tại huyện A: tham số mẫu và quần thể %
Trẻ sơ sinh%
 tại huyện A %
5000 trẻ %
Mẫu%
500 trẻ %
Tỷ lệ trẻ (p) có cân nặng 
< 2500 gram = 20% 
ước lượng hay kiểm định? 
Tỷ lệ trẻ (P) có cân nặng 
< 2500 gram = ? 
12 
Ví dụ: Cân nặng khi đẻ của trẻ mới sinh 
tại huyện A và huyện B %
Trẻ sơ sinh%
 tại huyện A %
5000 trẻ %
Trẻ sơ sinh%
 tại huyện B %
6000 trẻ %
Mẫu%
500 trẻ %
Mẫu B %
500 trẻ %
? 
12802954± 8862785±>
ước lượng hay kiểm định? 
* Ước lượng điểm:%
X=à
P = p !
+ Với biến định lượng: ố 
+ Với biến định tính: ố 
n  Nhược điểm của ước lượng điểm: 
n  Ví dụ điểm thi của 9 sinh viên 
Sinh viên số 1 2 3 4 5 6 7 8 9 
Điểm đạt được 9 8 7 9 6 4 5 8 3 
Nếu coi 9 sinh viên 
này là 1 quần thể ố 
56,6
9
385469789
=
++++++++
=à
Nếu ch ... ượng%
Môí liên quan giữa tuổi và huyết áp tối đa %
sb
p 
age 17 70 
110 
220 
- Hệ số tương quan r 
- Phương trình hồi quy tuyến tính 
Bảng lựa chọn test thống kê %
Biến độc 
 lập 
Biến 
Phụ thuộc 
1 biến định tính >2 biến 
định tính 
1 định lư
ợng 
1 định 
tính, 1 
định lư
ợng 
Nhiều biến 
định tính 
và/hoặc 
định lượng 
Có 2 
nhóm 
Trên 2 
nhóm 
1 biến định lư
ợng 
Test t Test 
ANOVA 
Factorial 
design 
(thừa số) 
Hệ số tư
ơng quan r 
hoặc hồi 
quy tuyến 
tính 
ANCOVA Phân tích 
hồi quy đa 
biến 
1 biến nhị 
phân 
OR, RR, 
χ2 hoặc 
Fisher 
test 
χ2 hoặc 
Fisher 
test 
Phân tích 
tầng 
Test t Factorial 
design 
(thừa số) 
Hồi quy 
logistics 
1 biến định 
tính 
χ2 hoặc 
Fisher 
test 
χ2 hoặc 
Fisher 
test 
Phân tích 
tầng 
ANOVA Factorial 
design 
(thừa số) 
17 
Một số test thường dùng%
ỉ  Test t student: 
ỉ  Test Khi bình phương 
ỉ  Test ANOVA 
ỉ  Hồi quy và hệ số tương quan 
ỉ  Test Khi bình phương của Mc. Nemar 
ỉ  Test t ghép cặp 
ỉ  Một số test phi tham số khác như test 
Mann-Whitney U test, Wilcoxon signed-
rank test 
)( 2χ
Test t ghép cặp%
x1 x2 d = x1 ‒ x2 
1,5 1,7 - 0,2 
1,7 1,9 - 0.2 
2,1 2,2 - 0,1 
1,6 1,9 - 0,3 
2,4 2,4 0 
Tổng - 0,8 
- 0,8/5 = - 0,16 d
Chức năng hô hấp của 5 bệnh nhân hen trư
ớc và sau khi dùng thuốc !
( )
( )
.14,3
051,0
16,0
051,0
5
114,0
114,0
)}1/(])({[ 2
−=
−
==
===
=
−−∑=
d
d
d
d
SE
dt
n
sSE
s
ndds
Tra bảng t với độ tự do %
n - 1 = 4, ta có p < 0,04 %ĐK: Phân bố của d phải chuẩn 
Test của Mc. Nemar %
Trước điều trị 
Tổng 
Thấp BT 
Sau điều 
trị 
Thấp a b a + b 
BT c d c + d 
Tổng a + c b + d 
2χ
;
c
bOR =
Chức năng hô hấp của bệnh nhân hen trư
ớc và sau khi dùng thuốc !
cb
cb
+
−
=
2
2 )(χ
Mann-Whitney U test%
•  Chỉ định: So sánh 2 nhóm độc lập khi số liệu là định 
lượng hoặc thứ hạng, phân bố không chuẩn 
•  Ví dụ: So sánh tác dụng điều trị đau đầu của Aspirin và 
placebo thông qua việc tự cho điểm của bệnh nhân 
Aspirin n=8 7,5 8,3 9,1 6,2 5,4 8,3 6,5 8,4 
Placebo n=10 3,1 5,6 4,5 6,2 5,1 5,3 5,5 4,1 4,3 4,2 
•  Xếp thứ tự các giá trị điểm trên không phân biệt nhóm 
Quan sát 3,1 4,1 4,2 4,3 4,5 5,1 5,3 5,4 5,5 
Thứ tự 1 2 3 4 5 6 7 8 9 
Quan sát 5,6 6,2 6,2 6,5 7,5 8,3 8,3 8,4 9,1 
Thứ tự 10 11,5 11,5 13 14 15,5 15,5 17 18 
18 
Mann-Whitney U test (tiếp)%
•  Tính tổng xếp hạng của nhóm điều trị (aspirin): 
•  T = 8+11,5+13+14+15+16+17+18 = 112,5 
•  Tính Z theo công thức: 
•  Tra bảng Z ta được p <0,003 
]12/)1([
2/)1(
2121
211
++
++−
=
nnnn
nnnTZ
24,3
]12/)1108(108[
2/)1108(85,112
=
++
++−
=
x
Z
Wilcoxon signed-rank test %
•  Chỉ định: So sánh 2 nhóm ghép cặp khi số liệu là 
định lượng hoặc thứ hạng, phân bố không chuẩn 
•  Ví dụ: So sánh ảnh hưởng của số năm uống thuốc tránh thai 
trên bệnh K vú trong 1 NC bệnh-chứng ghép cặp 
Cặp 1 2 3 4 5 6 7 8 9 10 
Ung thư 2,0 10,0 7,1 2,3 3,0 4,1 10,0 10,5 12,1 15,0 
Chứng 1,5 9,1 8,1 1,5 3,1 5,2 1,0 9,6 7,6 9,0 
Chênh lệch 0,5 0,9 -1,0 0,8 -0,1 -1,1 9,0 0,9 4,5 6,0 
Bỏ dấu 0,5 0,9 1,0 0,8 0,1 1,1 9,0 0,9 4,5 6,0 
Thứ tự 2 4,5 6 3 1 7 10 4,5 8 9 
Thứ tự có dấu 2 4,5 -6 3 -1 -7 10 4,5 8 9 
Wilcoxon signed-rank test (tiếp)%
•  Tính tổng thứ hạng mang dấu dương T (bỏ 
các thứ hạng mang dấu âm): 
•  T = 2 + 4,5 + 3 + 10 + 4,5 + 8 + 9 = 41,0 
•  áp dụng công thức: 
•  Tra bảng Z ta có p = 0,16 
]24/)12)(1([
4/)1(
++
+−
=
nnn
nnTZ
4,1
]24/)120)(110(10[
4/)110(1041
=
++
+−
=Z
Phân tích hồi quy và tư
ơng quan trong NCKH 
19 
Các bước xác định mối tương 
quan giữa 2 biến định lượng%
1.  Chọn biến thích hợp để xác định mối 
tương quan:!
2.  Biểu thị mối tương quan giữa 2 biến 
thích hợp bằng biểu đồ chấm:!
3.  Viết phương trình hồi quy tuyến tính 
nếu thích hợp !
4.  Xác định hệ số tương quan (r)!
1. Chọn biến thích hợp để xác định 
mối tương quan:%
* Ví dụ nào dưới đây là thích hợp để xác định mối tương 
quan giữa 2 biến định lượng: 
•  Hàm lượng chất độc trong máu và chất độc trong nước 
tiểu trên 1 nhóm đối tượng nghiên cứu !
•  Hàm lượng mỡ trong thức ăn và hàm lượng mỡ trong 
máu của người ăn thường ăn thức ăn đó,!
•  Số lượng hồng cầu trong máu và độ cao nơi người đó 
sống so với mặt biển !
•  Chiều cao thanh niên giữa vùng thành thị và nông thôn !
•  Chiều cao của bố liên quan đến chiều cao của con !
2. Biểu thị mối tương quan giữa 2 biến 
thích hợp bằng biểu đồ chấm:%
•  Vẽ đồ thị 
•  Quan sát đồ thị, mô tả mối tương quan: 
ỉ  Có tương quan hay không? !
ỉ  Tương quan là tuyến tính hay không? !
ỉ  Tương quan tuyến tính có rõ ràng hay không? !
ỉ  Tương quan là thuận hay nghịch !
ỉ  Có thể viết phương trình hồi quy tuyến tính cho mối 
tương quan hay không? !
ỉ  Làm thế nào để cải thiện và xác định đúng mối tư
ơng quan giữa hai biến số này? !
• Bằng biện pháp làm sạch số liệu? 
• Bằng cách tách chia nhỏ bộ số liệu? 
gr sbp age: 
sb
p 
age 17 70 
110 
220 
20 
gr sbp age, s([_n]) 
drop in 70 
sb
p 
age 17 70 
110 
220 
1 
2 
3 
4 
5 
6 
7 
8 
9 
10 
11 
12 
13 
14 
15 16 
17 
18 19 
20 
21 
22 
23 24 
25 26 
27 
28 
29 
30 
31 
32 
33 34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 55 
56 
57 58 
59 
60 
61 
62 63 
64 65 
66 
67 
68 
69 
70 
sb
p 
age 17 70 
110 
185 
- predict yhat 
- gr sbp yhat age, c(.l) 
age 
 sbp 
 Fitted values 
17 70 
110 
185 
3. Phương trình hồi quy tuyến tính 
3.1. Viết phương trình: %
Dạng tổng quát: , 'y = a + bx '!
trong đó: ,!
•  X giá trị của biến độc lập !
•  Y giá trị của biến phụ thuộc ứng với giá trị X !
•  b hệ số hồi quy biểu thị độ dốc của đường hồi quy:%
•  a là số chặn được tính bằng công thức: %
•  Giá trị a là bằng y khi x bằng 0 (zero). !
∑ ∑
∑ ∑ ∑
∑
∑
−
−
=
−
−−
=
n
x
x
n
yx
yx
xx
yyxx
b
i
i
ii
ii
2
2
2 )(
))((
)(
))((
xbya −=
21 
3.2. Xem xét mối liên quan giữa Y và X 
có ý nghĩa thống kê hay không? 
•  Kiểm định với test t theo công thức: %
•  Tra bảng t với độ tự do = n - 2 để xác định t tư
ơng ứng với α%
•  Kết luận dựa vào sự khác biệt giữa t tra từ 
bảng và t tính từ công thức. %
2
222
)()2(
)()()(
XXn
XXbYY
b
bSE
bt
−−
−−−
==
∑
∑ ∑
3.3. Ước lượng hệ số hồi quy b từ 
mẫu ra quần thể: 
•  Hệ số hồi quy của quần thể được ký hiệu là β %
•  Số chặn của quần thể được ký hiệu là α %
•  Công thức ước lượng khoảng cho hệ số hồi quy 
β của quần thể: %
 %
•  * Chú ý: Hệ số hồi quy β và số chặn α này khác 
với α và β trong xác định độ tin cậy %
2
222
2/ )()2(
)()(
XXn
XXbYY
tb
−−
−−−
±
∑
∑ ∑
∝
Viết phương trình hồi quy theo 
STATA: Lệnh: reg sbp age %
 Source | SS df MS Number of obs = 69 
---------+------------------------------ F( 1, 67) = 121.27 
 Model | 14951.2546 1 14951.2546 Prob > F = 0.0000 
Residual | 8260.51351 67 123.291246 R-squared = 0.6441 
---------+------------------------------ Adj R-squared = 0.6388 
 Total | 23211.7681 68 341.349531 Root MSE = 11.104 
-------------------------------------------------------------------- 
 sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval] 
---------+---------------------------------------------------------- 
 age | .9833276 .0892947 11.012 0.000 .8050947 - 1.161561 
 _cons | 103.3491 4.331896 23.858 0.000 94.70256 - 111.9956 
---------------------------------------------------------- 
•  Huyết áp tối đa = 103,35 + 0,98 tuổi%
•  Biến tuổi đóng góp 64% sự biến đổi của huyết áp tối đa %
* Điều kiện để có thể viết được phương 
trình hồi quy giữa 2 biến định lượng 
•  Biểu đồ chấm thể hiện mối tương quan tuyến tính rõ%
•  Có 1 mối quan hệ nhân quả giữa 2 biến %
•  Biến x được lựa chọn bởi người nghiên cứu (không 
ngẫu nhiên) trong khi biến y là ngẫu nhiên.%
•  Phân bố các giá trị của cả biến x và y phải chuẩn, %
•  Một giá trị của x thường cho 1 tập hợp các giá trị của y 
và chúng phải có các điều kiện sau:%
ỉ Các tập hợp này phải được phân bố chuẩn!
ỉ Chúng có cùng giá trị phương sai!
ỉ Giá trị trung bình của các tập hợp này phải nằm trên 1 
đường thẳng (chính là đường hồi quy)!
•  Các giá trị y là độc lập với nhau, tức là không phụ 
thuộc vào các giá trị khác nhau của x.%
22 
4. Hệ số tương quan (r) 
•  Chỉ áp dụng với 2 biến định lượng có quan hệ 
nhân quả, tuy nhiên không cần biết biến nào là 
phụ thuộc hoặc độc lập!
!
4.1. Đo lường độ lớn của tương quan: %
•  Hệ số tương quan %
•  Hoặc: 
∑ ∑
∑
−−
−−
=
22 )()(
))((
YYXX
YYXX
r
∑ ∑∑ ∑
∑ ∑ ∑
−−
−
=
2222 )()(
))((
iiii
iiii
yynxxn
yxyxn
r
4.2. Một số đặc tính của hệ số tư
ơng quan (r): 
•  Chỉ biểu thị mối tương quan tuyến tính!
•  r dao động trong khoảng từ -1 đến +1. !
•  r càng gần 1 hoặc - 1 thì mối tương quan giữa 2 
biến càng lớn; !
•  r càng gần 0 (zero) thì tương quan càng nhỏ. !
•  Khi r = 0, hai biến không có sự tương quan 
tuyến tính (nhưng có thể có tương quan dạng 
khác).!
•  r là hệ số tương quan xác định từ mẫu, trong khi 
hệ số tương quan của quần thể là rho (ρ). !
4.3. Kiểm định giả thuyết cho giá trị r: 
•  Giả thuyết ,Ho: ,ρ = 0 %
, , , ,Ha: ,ρ ≠ 0%
•  Test thống kê:, %
•  Tra bảng t-student với độ tự do = n - 2 và α tư
ơng ứng. %
•  Kết luận: Nếu t tính từ công thức > t tra từ bảng 
à tức là p < α; Ho bị loại bỏ và mối tương quan 
giữa 2 biến có ý nghĩa thống kê và ngược lại. ,%
22 1
2
)2(
)1()( r
nr
n
r
r
rSE
rt
−
−
=
−
−
==
4.4. Hệ số tương quan và hệ số xác định: 
•  Tham số mẫu:,%
%
•  Tham số quần thể: ,%
%
•  ý nghĩa của hệ số xác định: %
2rr =
2ρρ =
r2 = 0,25 r2 = 0,15 r2 = 0,50 
Y Y Y X X X 
23 
5. Ví dụ về một số bộ số liệu không thích 
hợp với hồi quy và tương quan: %
X1 ! Y1 ! X2 ! Y2 ! X3 ! Y3 ! X4 ! Y4 !
10 % 8.04 % 10 % 9.14 % 10 % 7.46 % 8 % 6.58 %
8 % 6.95 % 8 % 8.14 % 8 % 6.77 % 8 % 5.76 %
13 % 7.58 % 13 % 8.74 % 13 % 12.74 % 8 % 7.71 %
9 % 8.81 % 9 % 8.77 % 9 % 7.11 % 8 % 8.84 %
11 % 8.33 % 11 % 9.26 % 11 % 7.81 % 8 % 8.47 %
14 % 9.96 % 14 % 8.1 % 14 % 8.84 % 8 % 7.04 %
6 % 7.24 % 6 % 6.13 % 6 % 6.08 % 8 % 5.25 %
4 % 4.26 % 4 % 3.1 % 4 % 5.39 % 19 % 12.5 %
12 % 10.84 % 12 % 9.13 % 12 % 8.15 % 8 % 5.56 %
7 % 4.82 % 7 % 7.26 % 7 % 6.42 % 8 % 7.91 %
5 % 5.68 % 5 % 4.74 % 5 % 5.73 % 8 % 6.89 %
- Lệnh: reg y1 x1 
 Source | SS df MS Number of obs = 11 
---------+------------------------------ F( 1, 9) = 17.99 
 Model | 27.5100011 1 27.5100011 Prob > F = 0.0022 
Residual | 13.7626904 9 1.52918783 R-squared = 0.6665 
---------+------------------------------ Adj R-squared = 0.6295 
 Total | 41.2726916 10 4.12726916 Root MSE = 1.2366 
-------------------------------------------------------------------- 
 y1 | Coef. Std. Err. t P>|t| [95% Conf. Interval] 
---------+---------------------------------------------------------- 
 x1 | .5000909 .1179055 4.241 0.002 .2333701 - .7668117 
 _cons | 3.000091 1.124747 2.667 0.026 .4557369 - 5.544445 
-------------------------------------------------------------------- 
- Lệnh: reg y2 x2 
 Source | SS df MS Number of obs = 11 
---------+------------------------------ F( 1, 9) = 17.97 
 Model | 27.5000024 1 27.5000024 Prob > F = 0.0022 
Residual | 13.776294 9 1.53069933 R-squared = 0.6662 
---------+------------------------------ Adj R-squared = 0.6292 
 Total | 41.2762964 10 4.12762964 Root MSE = 1.2372 
-------------------------------------------------------------------- 
 y2 | Coef. Std. Err. t P>|t| [95% Conf. Interval] 
---------+---------------------------------------------------------- 
 x2 | .5 .1179638 4.239 0.002 .2331475 - .7668526 
 _cons | 3.000909 1.125303 2.667 0.026 .4552978 - 5.54652 
-------------------------------------------------------------------- 
Lệnh reg Y1 X1 
24 
Lệnh reg Y2 X2 Lệnh reg Y3 X3 
Lệnh reg Y4 X4 Phân biệt sai số ngẫu nhiên và 

sai số hệ thống%
oo
oo
oo
oo
oo
oo
oo
oo
o 
oo 
oooo 
oooooooooo 
oooooooooooooooooooooooo
oooooooooo 
oooo 
oo 
Sai số%
hệ thống%
May rủi%
80 % 90 %
mmHg%
A (đúng)%
%
B (sai)%
%
25 
Sai số ngẫu nhiên và sai số hệ thống%
** 
****
** 
** 
****
** 
* * 
* * * 
* * * * 
* * * 
* * 
* * 
* * * 
* * * * 
* * * 
* * 
Khái niệm về nhiễu %
Mức độ lệ thuộc Insulin 
Tỡnh trạng sống sút Khụng Cú 
Sống 326 253 
Chết 218 105 
Tổng cộng 544 358 
Tỷ lệ chết 40% 29% 
Tầng 1 < 40 tuổi 
Mức độ lệ thuộc Insulin 
Tỡnh trạng 
sống sút 
Khụng Cú 
Sống 15 129 
Chết 0 1 
Tổng cộng 15 130 
Tỷ lệ chết 0% 1% 
Tầng 1 ≥ 40 tuổi 
Mức độ lệ thuộc Insulin 
Tỡnh trạng 
sống sút 
Khụng Cú 
Sống 311 124 
Chết 218 104 
Tổng cộng 529 228 
Tỷ lệ chết 41% 46% 
Khái niệm về nhiễu và tác động tương hỗ%
Loại nghiên cứu !
Giá trị chung và theo tầng !
Nhận xét!
Tầng 1 ! Tầng 2 !
 Chung 2 
tầng (crude) !
1 
2 
3 
Thuần tập (RR) 
Thuần tập (RR) 
Bệnh chứng (OR) 
1,02 
1,74 
0,96 
1,86 
3,00 
0,45 
4,00 
1,00 
1,83 
Nhiễu và có tác 
động tương hỗ 
giữa các tầng 
4 
5 
6 
Thuần tập (RR) 
Thuần tập (RR) 
Bệnh chứng (OR) 
4,00 
1,00 
1,83 
4,00 
1,00 
1,83 
4,00 
1,00 
1,83 
Không nhiễu và 
không có tác 
động tương hỗ 
7 
8 
9 
Thuần tập (RR) 
Thuần tập (RR) 
Bệnh chứng (OR) 
1,01 
3,00 
0,83 
1,01 
3,00 
0,83 
4,00 
1,00 
1,83 
Nhiễu và không 
có tác động tư
ơng hỗ 
10 
11 
12 
Thuần tập (RR) 
Thuần tập (RR) 
Bệnh chứng (OR) 
1,07 
3,00 
0,36 
9,40 
0,33 
6,00 
4,00 
1,00 
1,83 
Tác động tương 
hỗ rất lớn à làm 
lu mờ nhiễu 
Phơi nhiễm Bệnh 
Tổng 
Có Không 
Có 200 800 1000 
Không 50 950 1000 
Tổng 250 1,750 2,000 
Tầng 1: Có yếu tố nhiễu 
Phơi 
nhiễm 
Bệnh Tổng 
Có Không 
Có 194 706 900 
Không 21 79 100 
Tổng 215 785 1000 
Tầng 2: Không có YT nhiễu 
Phơi 
nhiễm 
Bệnh Tổng 
Có Không 
Có 6 94 100 
Không 29 871 900 
Tổng 35 965 1000 
RR hiệu chỉnh = 1.14 !
Ví dụ về việc phân tích tầng khử nhiễu 
26 
Phương pháp khử nhiễu tối ưu 
• Hồi quy đa biến: 
 Y = a + b1X1 + b2X2 + b3X3 +...... + biXi 
• Hồi quy logistics 
)...( 3322111
1
ii xbxbxbxbae
Y +++++−+
=
Một số test thống kê 
thường dùng khác 
Cụng thức Kappa 
 Người đỏnh giỏ 1 
+ - ∑ 
Người đỏnh 
giỏ 2 
+ a b p1 
- c d q1 
∑ p2 q2 1 
1221
)(2
qpqp
bcadK
+
−
=
Giỏ trị của Kappa (K) Cỏch giải thớch 
> 0,75 Rất đồng ý 
0,40 - 0,75 Đồng ý (vừa phải) 
< 0,40 Khụng đồng ý 
Vớ dụ (bảng tần số) 
 Kỹ thuật viờn XQ 1 
+ - Tổng số film đọc 
Kỹ thuật viờn 
XQ 2 
+ 1.467 1.309 2.776 
- 782 16.232 17.014 
Tổng số film đọc 2.249 17.541 19.790 
27 
Chuyển sang bảng tỷ lệ 
 Kỹ thuật viờn XQ 1 
+ - Tỷ lệ film đọc 
Kỹ thuật viờn 
XQ 2 
+ 0,0741 0,0662 0,1403 
- 0,0395 0,8202 0,8597 
Tỷ lệ film đọc 0,1136 0,8864 1 
Cỏch tớnh giỏ trị Kappa 
 Kỹ thuật viờn XQ 1 
+ - Tỷ lệ film đọc 
KTV XQ 
2 
+ 0,0741 (a) 0,0662 (b) 0,1403 (p1) 
- 0,0395 (c) 0,8202 (d) 0,8597 (q1) 
Tỷ lệ film đọc 0,1136 (p2) 0,8864 (q2) 1 
1221
)(2
qpqp
bcadK
+
−
=
Tổng quỏt: Bảng tần số 
 Chuyờn gia 1 
+ - Tổng số 
Chuyờn gia 
2 
+ a b (a + b) 
- c d (c + d) 
Tổng số (a + c) (b + d) n 
Tổng quỏt: Bảng tỷ lệ 
 Chuyờn gia 1 
+ - Tỷ lệ 
Chuyờn gia 
2 
+ a/n b/n (a + b)/n 
- c/n d/n (c + d)/n 
Tỷ lệ (a + c)/n (b + d)/n n/n 

File đính kèm:

  • pdfbai_giang_dai_cuong_ve_muc_tieu_bien_so_va_phan_tich_so_lieu.pdf