Bài giảng Đại cương về mục tiêu, biến số và phân tích số liệu
Định nghĩa Biến số%
• Đặc tính của ngời, vật sự việc, hiện t
ợng biến thiên theo các điều kiện
khác nhau
• Do ngời nghiên cứu lựa chọn phù hợp
với từng mục tiêu nghiên cứu
• Triển khai nghiên cứu chính là thu thập
số liệu cho các biến số này
• Đối lập với biến số là các hằng số
Phân loại theo mối tơng quan giữa các
biến số
Biến độc lập
(phơi nhiễm)
Biến phụ
thuộc (bệnh)
Yếu tố nhiễu
l? Nhiễu là yếu tố làm sai lệch ảnh hởng của phơi nhiễm
với bệnh (thay đổi độ lớn và ý nghĩa thống kê)
l? Biến độc lập, phụ thuộc và nhiễu đợc xác định bởi ng
ời nghiên cứu và chỉ có ý nghĩa trong nghiên cứu đó.
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Đại cương về mục tiêu, biến số và phân tích số liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Đại cương về mục tiêu, biến số và phân tích số liệu
1
Đại cương về
Mục tiêu, Biến số và
Phân tích số liệu %
Lưu Ngọc Hoạt
Viện YHDP và YTCC, ĐH Y Hà Nội
MT cụ thể:
ỹ Xỏc định tỷ lệ cao HA của
người cao tuổi tại huyện A.
ỹ Xỏc định một số yếu tố liờn
quan đến tỡnh trạng cao HA.
ỹ Đỏnh giỏ hiệu quả của một số
giải phỏp can thiệp làm giảm
tỷ lệ tăng huyết ỏp.
Tờn đề tài: Huyết ỏp của người dõn tại
huyện A năm 2005 và một số
yếu tố ảnh hưởng
MT chung: Xỏc định tỷ lệ cao HA của người
cao tuổi tại huyện A năm 2005
và một số yếu tố ảnh hưởng
Mối liờn quan giữa tờn đề tài, mục tiờu chung
và mục tiờu cụ thể
M
ục
t
iờ
u
3
M
ục
t
iờ
u
2
M
ục
t
iờ
u
1
Mục tiờu chu g
%
%
Tờn đề tài
M
ục
t
iờ
u
3
M
ục
t
iờ
u
2
M
ục
t
iờ
u
1
Mục tiờu chung
Tờn đề tài
Cao HA của người cao tuổi tại
huyện A năm 2005 và một số yếu
tố ảnh hưởng
• Xỏc định tỷ lệ cao HA của người
cao tuổi tại huyện A năm 2005
và một số yếu tố ảnh hưởng
ỹ Xỏc định tỷ lệ cao HA của
người cao tuổi tại huyện A.
ỹ Xỏc định một số yếu tố liờn
quan đến tỡnh trạng cao HA.
ỹ Đề xuất (và thăm dũ) một số
giải phỏp can thiệp làm giảm
tỷ lệ tăng huyết ỏp.
M
ục
t
iờ
u
3
M
ục
t
iờ
u
2
M
ục
t
iờ
u
1
Mục tiờu chung
Biến số 1
Biến số 2
Biến số 3
Biến số 4
Mối liờn quan giữa một số thành phần của NC
Biến số 1
Biến số 2
Biến số 3
Biến số 4
Biến số 1
Biến số 2
Biến số 3
Biến số 4
Tờn đề tài
Định nghĩa Biến số%
• Đặc tính của người, vật sự việc, hiện tư
ợng biến thiên theo các điều kiện
khác nhau
• Do người nghiên cứu lựa chọn phù hợp
với từng mục tiêu nghiên cứu
• Triển khai nghiên cứu chính là thu thập
số liệu cho các biến số này
• Đối lập với biến số là các hằng số
2
Phân loại theo bản chất của biến số
Biến định lượng
Biến định tính
Biến liên tục
Biến rời rạc
Biến tỷ suất
Biến khoảng chia
Biến danh mục
Biến thứ hạng
Biến nhị phân
Bài tập 1: Phân loại các biến số
Định
tính
Định
lượng
Danh
mục
Thứ
hạng
Nhị
phân
Khoảng
chia
Tỷ
suất
Liên
tục
Rời
rạc
Tuổi
Hàm lượng đường
huyết
Độ cận, viễn của
mắt (đi ốp)
Số lượng hồng cầu
Nhiệt độ không khí
Giới
Dân tộc
Trình độ văn hoá
Số vi khuẩn/vi trư
ờng
Bài tập 1: Phân loại các biến số
Định
tính
Định
lượng
Danh
mục
Thứ
hạng
Nhị
phân
Khoảng
chia
Tỷ
suất
Liên
tục
Rời
rạc
Tuổi X X X
Hàm lượng đường
huyết
X X X
Độ cận, viễn của
mắt (đi ốp)
X X X
Số lượng hồng cầu X X X
Nhiệt độ không khí X X X
Giới X X
Dân tộc X X
Trình độ văn hoá X X
Số vi khuẩn/vi trư
ờng
X X X
Phân loại theo mối tương quan giữa các
biến số
Biến độc lập
(phơi nhiễm)
Biến phụ
thuộc (bệnh)
Yếu tố nhiễu
l Nhiễu là yếu tố làm sai lệch ảnh hưởng của phơi nhiễm
với bệnh (thay đổi độ lớn và ý nghĩa thống kê)
l Biến độc lập, phụ thuộc và nhiễu được xác định bởi ngư
ời nghiên cứu và chỉ có ý nghĩa trong nghiên cứu đó.
3
Tiêu chuẩn của 1 yếu tố nhiễu%
v Phải là 1 yếu tố nguy cơ đối với bệnh
v Phải có liên quan đối với phơi nhiễm như
ng không lệ thuộc vào phơi nhiễm
v Không phải là yếu tố trung gian giữa phơi
nhiễm và bệnh
v Phải thực sự tác động lên mối tương quan
giữa phơi nhiễm và bệnh (khẳng định khi
phân tích số liệu)
v Có thể đổi chỗ cho yếu tố phơi nhiễm tuỳ
theo mục đích người làm nghiên cứu
Trường hợp nào sau đây là nhiễu?%
E
E
E
D E E D D
D
D
D
D
E
E
E D
D E
F F F
F
F
F F
F F
Bài tập
Nếu muốn xác định các biến số cần và đủ cho
một nghiên cứu thì cần dựa vào cách nào dưới
đây (chọn cách mà Anh/Chị cho là hợp lý nhất)?
A. Kinh nghiệm của các nghiên cứu tưõng tự đã
được tác giả khác triển khai,
B. Cây vấn đề được phát triển từ đề tài nghiên
cứu
C. Kế hoạch trình bày phần kết quả nghiên cứu
và bàn luận
D. Mục tiêu nghiên cứu
Phân biệt thống kê mô tả và
thống kê suy luận%
• Thống kê mô tả:
‒ là mô tả kết quả thu được từ mẫu nghiên cứu
‒ biểu thị độ lớn, sự phân bố của các tham số của
mẫu nghiên cứu như , độ lệch chuẩn, các tỷ lệ,
bảng, biểu, đồ thị sự phân bố theo các biến số
khác nhau như tuổi, giới, địa dư...
• Thống kê suy luận:
‒ là quá trình ngoại suy kết quả nghiên cứu từ mẫu
ra quần thể nghiên cứu.
‒ bao gồm 2 phương pháp: ước lượng và kiểm định
4
Quần thể đích%
Quần thể
nghiên cứu%
Mẫu%
Tham số quần thể %
(à, σ, P...)%Mẫu xác suất%
- Ngẫu nhiên đơn !
- Ngẫu nhiên hệ thống!
- Mẫu phân tầng !
- Mẫu chùm !
- Mẫu nhiều bậc !
Mẫu không xác suất%
- Mẫu kinh nghiệm %
- Mẫu thuận tiện !
- Mẫu chỉ tiêu!
- Mẫu có mục đích.%
Chọn
mẫu %
Ước lượng %
• điểm%
• khoảng %
Kiểm định
giả thuyết%
Suy luận
thông kê
(Chỉ áp
dụng cho
mẫu xác
suất với
cỡ mẫu
đủ lớn) %
Kết luận ngoại suy !
Các test
thống kê
Giá trị p
Lựa chọn!
Mô tả các tham số mẫu%
(trình bày kết quả nghiên cưú) %
Tham số mẫu%
( , s, p...)!XBiến số !
Thống kê
mô tả %
Thống kê suy luận%
1. Thống kê mô tả %
Bài tập
Nếu một người nghiờn cứu muốn thu thập số liệu
về huyết ỏp tối đa của cỏc đối tượng NC, cỏch thu
thập nào dưới đõy Anh/Chị cho là hợp lý nhất?
A. Phõn huyết ỏp thành cỏc nhúm (vớ dụ < 90
mmHg; 90-120; 121-140...) sau đú chọn nhúm
thớch hợp
B. Ghi đầy đủ trị số huyết ỏp tối đa của từng đối
tượng.
C. Phõn đối tượng thành hai loại cú và khụng cao
huyết ỏp tối đa
D. Phõn thành cỏc nhúm: huyết ỏp thấp, bỡnh
thường, cao và rất cao
Bài tập
Nếu một người nghiờn cứu muốn thu thập số
liệu về số điếu thuốc lỏ một người hỳt trung
bỡnh/ngày, cỏch thu thập nào dưới đõy Anh/Chị
cho là hợp lý nhất?
A. Phõn thành cỏc nhúm (vớ dụ < 5 điếu; 5-10;
11-15; 16-20...) sau đú chọn nhúm thớch hợp
B. Ghi chớnh xỏc số điếu thuốc hỳt trung bỡnh mà
đối tượng đó trả lời.
C. Phõn đối tượng thành hai loại: hỳt trờn 1 bao
hoặc dưới một bao
D. Phõn thành cỏc nhúm: hỳt nhẹ, hỳt trung bỡnh,
hỳt nhiều, hỳt rất nhiều.
5
Ví dụ 1: Mô tả đặc điểm của cân nặng khi
đẻ của 500 trẻ mới sinh tại bệnh viện M: %
1. Khi cân nặng tính bằng gram (biến định lượng)!
ố Đo lường độ tập trung của số liệu:
- Giá trị trung bình: với số liệu phân bố chuẩn
- Giá trị trung vị: với bộ số liệu phân bố không chuẩn
ố Đo lường độ phân tán của bộ số liệu:
- Khoảng dao động (Max ‒ Min)
- Độ lệch chuẩn
2. Khi cân nặng tính theo mốc < hoặc ≥ 2500
gram (biến định tính) !
ố Tỷ lệ trẻ có cân nặng < 2500 gr
Ưu điểm của phân tích số liệu dưới dạng
định lượng (ví dụ cân nặng khi đẻ của trẻ)%
BA XX >>PA = PB = 10% %
2500 gr %
50 trẻ 450 trẻ
B
2500 gr %
50 trẻ 450 trẻ
A
%
Ưu điểm của phân tích số liệu dưới dạng
định lượng (tiếp) (Huyết áp tối đa) %
PA = PB = 60% %
120 mmHg %
300 người 200 người
A
120 mmHg %
300 người 200 người
B
BA XX ≈
sB >> sA %
Các nội dung chính của thống kê mô tả %
I. Tổng hợp các biến số%
‒ Với các biến định tính:!
• Tần số (frequency)!
• Tỷ số (ratio)!
• Tỷ lệ (proportion)!
• Tỷ suất (rate)!
‒ Với các biến định lượng: !
• Đo lường độ tập trung: giá trị trung bình,
trung vị, mốt!
• Đo lường độ phân tán: phương sai, độ lệch
chuẩn, %
6
Các nội dung chính của thống kê mô tả %
II. Trình bày số liệu bằng bảng: %
‒ Bảng 1 chiều %
‒ Bảng 2 chiều%
III. Trình bày số liệu bằng biểu và đồ thị %
‒ Đồ thị cột: %
• Cột rời, !
• Cột chồng, !
• Cột liên tục !
‒ Đồ thị hình tròn%
‒ Biểu đồ gấp khúc %
‒ Biểu đồ đa giác %
‒ Biểu đồ chấm (đám mây)%
‒ Bản đồ %
1/ Tổng hợp số liệu với
các biến định tính
1.1. Tần số (frequency):%
• Biểu thị số lần xuất hiện của 1 quan sát nào đó%
• VD : Phân bố nhóm dân tộc trong số 22 người
nghiên cứu.
22 %Tổng cộng%
6%Nùng %
12 %Tày%
4%Kinh %
Tần số%Đếm số lần xuất hiện%Giá trị biến%
1.2. Tỷ số (ratio):%
• Là phân số mà mẫu số
không bao hàm tử số
n Tử số và mẫu số có thể khác nhau
về đơn vị đo lường
n Hệ số k có thể là 1, 10, 100, 1000...
n Ví dụ:
a%
--- x k %
b%
số học sinh nam
----------------------
số học sinh nữ
số giường bệnh
----------------------------
dân số trong khu vực
7
1.3. Tỷ lệ (proportion):%
: Là 1 phân số mà mẫu số bao
hàm tử số, do vậy cả mẫu và
tử đều phải cùng đơn vị
a%
------- x k %
a + b%
n Hệ số k có thể là 1, 10, 100, 1000...
n Khi k = 100, ta có tỷ lệ phần trăm (percentage)!
n Ví dụ:%
số học sinh nam
Tỷ lệ học sinh nam = -----------------------
tổng số học sinh
số người mắc sốt rét
Tỷ lệ mắc sốt rét = ----------------------------------
tổng số người được khám
1.4. Tỷ suất (rate):%
• Là 1 dạng đặc biệt của tỷ lệ khi nó được đo lư
ờng trong một khoảng thời gian nhất định
• Ví dụ:
số biến cố xẩy ra trong 1 khoảng thời gian
------------------------------------------------------------ x k
dân số trung bình trong khoảng thời gian đó
n Hệ số k có thể là 1, 10, 100, 1000...
n Ví dụ:%
số người bị sốt rét tại huyện A năm 2000
------------------------------------------------------------- x 100
dân số trung bình của huyện A trong năm đó
2/ Tổng hợp số liệu với
các biến định lượng
2.1. Đo lường độ tập trung:
Bài tập
Tham số nào là thớch hợp nhất để đo
lường độ tập trung của bộ số liệu dưới
đõy: 12, 15, 17, 20, 23, 24, 26, 28, 80
A. Trung vị
B. Khoảng phần trăm
C. Giỏ trị trung bỡnh
D. Độ lệch chuẩn
8
• Được tính bằng tổng số các giá trị quan sát đư
ợc chia cho số lần quan sát.
• Giá trị trung bình chỉ tính được với các số dạng
liệu số (biến định lượng)
• Ví dụ:!
‒ Chiều cao của 7 em gái đo được như sau:
‒ 141, 141, 143, 144, 145, 146, 155 cm (tổng
cộng tất cả chiều cao là 1015 cm)
‒ Vì vậy trung bình bằng 1015/7, tức là 145 cm.
n
X
n
XXXX
n
i
i
n
∑
==
+++
= 121
...
v Trung bình số học (trung bình cộng):
• Là giá trị giữa của 1 bộ số liệu khi chúng được sắp
xếp theo thứ tự tăng dần hoặc giảm dần.
• Giá trị này chia sự phân bố của số liệu thành hai
phần bằng nhau
!
• Ví dụ:!
‒ ta có bộ số liệu: 47, 41, 44, 43, 42, 40, 72 kg.
‒ để tính trung vị, trước hết sắp xếp số liệu theo thứ tự:
40, 41, 42, 43, 44, 47, 72 kg.
‒ trung vị sẽ là giá trị của quan sát thứ (n+1)/2, tức là
(7+1)/2 =4, và giá trị thứ 4 = 43 kg là trung vị.
‒ Với bộ số liệu: 40, 41, 42, 43, 44, 47, 49 và 72 thì trung
vị là giá trị trung bình cộng của giá trị thứ 4 và thứ 5 =
(43+44)/2 = 43,5
v Trung vị (giá trị trung tâm):
• Là giá trị quan sát được nhiều lần nhất trong bộ số liệu
• Trong bộ số liệu dưới đây:141, 141, 143, 144, 145, 146,
155 thì 141 được coi là mốt vì quan sát được nhiều lần
nhất.
• Mốt ít có giá trị trong đo lường độ tập trung của bộ số liệu
khi ở dạng định lượng, nhưng có giá trị với bộ số liệu phân
nhóm, hoặc biến định tính
• Ví dụ: Trong bảng dưới, nhóm tuổi 36-45 là mốt
Nhóm
tuổi
Tần số Nhóm
tuổi
Tần số Nhóm tuổi Tần số
< 5 15 26-35 67 56-65 43
5-15 24 36-45 120 66-75 27
16-25 32 46-55 94 >75 12
v Mốt: Phân biệt về giá trị trung bình, trung vị
và mốt:
Mốt = 10
Trung vị = 11
Trung bình = 11,3
Đo lường (cm)
9
Ví dụ phân bố chuẩn%
Fr
eq
ue
nc
y
bwt
709 % 4990 %
0 %
29 %
Phân biệt về giá trị trung bình, trung vị
và mốt (tiếp):
• Giá trị trung bình được sử dụng thường xuyên
hơn và có giá trị khi bộ số liệu là 1 phân bố
chuẩn. %
• Khi bộ số liệu phân bố không chuẩn, trung vị có
ý nghĩa hơn:%
• Ví dụ: !
‒ Với bộ số liệu này: 40, 41, 42, 43, 44, 47, 72 thì giá
trị trung bình = 47, trong khi giá trị trung vị bằng 43.
‒ Nếu ta thay giá trị 72 trong bộ số liệu trên = 51, giá
trị trung vị không đổi, nhưng giá trị trung bình chỉ còn
là 44!
2/ Tổng hợp số liệu với các
biến định lượng (tiếp)
2.2. Đo lường độ phân tán:
v Khoảng số liệu (range): %
‒ Là hiệu giữa hai giá trị đo lường cao nhất và thấp nhất
trong một bộ số liệu.
‒ Khoảng số liệu (R) = Xmax ‒ Xmin
• Ví dụ: nếu cân nặng của 7 phụ nữ là 40, 41, 42, 43, 44,
47 và 72 kg, khoảng quan sát sẽ là 72 - 40 = 32 kg.%
1
)(
1
2
2
−
−
=
∑
=
n
XXi
s
n
i
v Phương sai (variance)%
‒ Là tổng bình phương các
khoảng cách giữa giá trị quan
sát so với giá trị trung bình chia
cho số các quan sát trừ đi 1.
v Độ lệch chuẩn (standard
deviation)%
2ss =
10
v Ví dụ minh hoạ:
X
v Ví dụ minh hoạ (tiếp):
6
10
0
30
Σ
1 2 1 0 4
Bình phương khoảng chênh
lệch giữa giá trị quan sát so
với giá trị trung bình
1 2 -1 0 -2
Khoảng chênh lệch so với giá
trị trung bình
7 8 5 6 4
Tỷ lệ phụ nữ làm kinh tế giỏi
(Xi)
01 00 99 98 97
)( XXi −
5,2
4
10
1
)(
1
2
2 ==
−
−
=
∑
=
n
XXi
s
n
i
X
2)( XXi −
58,15,2 ==⇒ s
v Hệ số biến thiên (coeficient of variation)%
• Là tỷ số giữa độ lệch chuẩn và trị tuyệt đối của giá trị trung
bình
• Hệ số biến thiên được biểu thị bằng tỷ lệ phần trăm (%) và
biểu thị mức độ biến thiên của độ lệch chuẩn so với giá trị
trung bình
• Giúp cho việc so sánh mức độ phân tán của nhiều bộ số liệu
với nhau:
• Ví dụ:!
• CV của cân nặng nam =12/60 = 20%
• CV của cân nặng nữ = 8/54 = 15%
• Vậy bộ số liệu của cân nặng nam phân tán hơn
X
sCV =
8 54 Cân nặng nữ thanh niên
12 60 Cân nặng nam thanh niên
s X
• Thống kê mô tả: Quan tâm đến mẫu NC
‒ Tổng hợp số liệu:
• tỷ lệ, tỷ số, tỷ suất
• Độ tập trung, độ phân tán của bộ số liệu định lượng
‒ Trình bày kết quả nghiên cứu:
• Bảng
• Biểu đồ, đồ thị
• Thống kê suy luận: quan tâm đến quần thể
‒ Ước lượng :
• Điểm,
• Khoảng
‒ Kiểm định giả thuyết
• Khác nhau
• Tương quan
11
2. Thống kê suy luận %
2.1. Ước lượng điểm, khoảng%
Phân biệt ước lượng và kiểm định%
• ước lượng:
‒ ngoại suy từ tham số mẫu ra tham số quần thể:
‒ từ trung bình của mẫu ( ) sang TB quần thể (à)
‒ từ tỷ lệ của mẫu (p) sang tỷ lệ của quần thể (P)
‒ từ OR, RR, r của mẫu ra quần thể.
• Kiểm định giả thuyết:
‒ so sánh 2 hoặc nhiều quần thể NC từ sự khác biệt
của 2 hoặc nhiều mẫu rút ra từ các quần thể đó.
‒ kiểm định mối tương quan của quần thể dựa theo
mối tương quan thu được từ mẫu
X
Ví dụ: Cân nặng khi đẻ của trẻ mới sinh
tại huyện A: tham số mẫu và quần thể %
Trẻ sơ sinh%
tại huyện A %
5000 trẻ %
Mẫu%
500 trẻ %
12802954±=± sXTham số mẫu:
??±=±σàTham số QT:
ước lượng hay kiểm định?
Ví dụ: Cân nặng khi đẻ của trẻ mới sinh
tại huyện A: tham số mẫu và quần thể %
Trẻ sơ sinh%
tại huyện A %
5000 trẻ %
Mẫu%
500 trẻ %
Tỷ lệ trẻ (p) có cân nặng
< 2500 gram = 20%
ước lượng hay kiểm định?
Tỷ lệ trẻ (P) có cân nặng
< 2500 gram = ?
12
Ví dụ: Cân nặng khi đẻ của trẻ mới sinh
tại huyện A và huyện B %
Trẻ sơ sinh%
tại huyện A %
5000 trẻ %
Trẻ sơ sinh%
tại huyện B %
6000 trẻ %
Mẫu%
500 trẻ %
Mẫu B %
500 trẻ %
?
12802954± 8862785±>
ước lượng hay kiểm định?
* Ước lượng điểm:%
X=à
P = p !
+ Với biến định lượng: ố
+ Với biến định tính: ố
n Nhược điểm của ước lượng điểm:
n Ví dụ điểm thi của 9 sinh viên
Sinh viên số 1 2 3 4 5 6 7 8 9
Điểm đạt được 9 8 7 9 6 4 5 8 3
Nếu coi 9 sinh viên
này là 1 quần thể ố
56,6
9
385469789
=
++++++++
=à
Nếu ch ... ượng%
Môí liên quan giữa tuổi và huyết áp tối đa %
sb
p
age 17 70
110
220
- Hệ số tương quan r
- Phương trình hồi quy tuyến tính
Bảng lựa chọn test thống kê %
Biến độc
lập
Biến
Phụ thuộc
1 biến định tính >2 biến
định tính
1 định lư
ợng
1 định
tính, 1
định lư
ợng
Nhiều biến
định tính
và/hoặc
định lượng
Có 2
nhóm
Trên 2
nhóm
1 biến định lư
ợng
Test t Test
ANOVA
Factorial
design
(thừa số)
Hệ số tư
ơng quan r
hoặc hồi
quy tuyến
tính
ANCOVA Phân tích
hồi quy đa
biến
1 biến nhị
phân
OR, RR,
χ2 hoặc
Fisher
test
χ2 hoặc
Fisher
test
Phân tích
tầng
Test t Factorial
design
(thừa số)
Hồi quy
logistics
1 biến định
tính
χ2 hoặc
Fisher
test
χ2 hoặc
Fisher
test
Phân tích
tầng
ANOVA Factorial
design
(thừa số)
17
Một số test thường dùng%
ỉ Test t student:
ỉ Test Khi bình phương
ỉ Test ANOVA
ỉ Hồi quy và hệ số tương quan
ỉ Test Khi bình phương của Mc. Nemar
ỉ Test t ghép cặp
ỉ Một số test phi tham số khác như test
Mann-Whitney U test, Wilcoxon signed-
rank test
)( 2χ
Test t ghép cặp%
x1 x2 d = x1 ‒ x2
1,5 1,7 - 0,2
1,7 1,9 - 0.2
2,1 2,2 - 0,1
1,6 1,9 - 0,3
2,4 2,4 0
Tổng - 0,8
- 0,8/5 = - 0,16 d
Chức năng hô hấp của 5 bệnh nhân hen trư
ớc và sau khi dùng thuốc !
( )
( )
.14,3
051,0
16,0
051,0
5
114,0
114,0
)}1/(])({[ 2
−=
−
==
===
=
−−∑=
d
d
d
d
SE
dt
n
sSE
s
ndds
Tra bảng t với độ tự do %
n - 1 = 4, ta có p < 0,04 %ĐK: Phân bố của d phải chuẩn
Test của Mc. Nemar %
Trước điều trị
Tổng
Thấp BT
Sau điều
trị
Thấp a b a + b
BT c d c + d
Tổng a + c b + d
2χ
;
c
bOR =
Chức năng hô hấp của bệnh nhân hen trư
ớc và sau khi dùng thuốc !
cb
cb
+
−
=
2
2 )(χ
Mann-Whitney U test%
• Chỉ định: So sánh 2 nhóm độc lập khi số liệu là định
lượng hoặc thứ hạng, phân bố không chuẩn
• Ví dụ: So sánh tác dụng điều trị đau đầu của Aspirin và
placebo thông qua việc tự cho điểm của bệnh nhân
Aspirin n=8 7,5 8,3 9,1 6,2 5,4 8,3 6,5 8,4
Placebo n=10 3,1 5,6 4,5 6,2 5,1 5,3 5,5 4,1 4,3 4,2
• Xếp thứ tự các giá trị điểm trên không phân biệt nhóm
Quan sát 3,1 4,1 4,2 4,3 4,5 5,1 5,3 5,4 5,5
Thứ tự 1 2 3 4 5 6 7 8 9
Quan sát 5,6 6,2 6,2 6,5 7,5 8,3 8,3 8,4 9,1
Thứ tự 10 11,5 11,5 13 14 15,5 15,5 17 18
18
Mann-Whitney U test (tiếp)%
• Tính tổng xếp hạng của nhóm điều trị (aspirin):
• T = 8+11,5+13+14+15+16+17+18 = 112,5
• Tính Z theo công thức:
• Tra bảng Z ta được p <0,003
]12/)1([
2/)1(
2121
211
++
++−
=
nnnn
nnnTZ
24,3
]12/)1108(108[
2/)1108(85,112
=
++
++−
=
x
Z
Wilcoxon signed-rank test %
• Chỉ định: So sánh 2 nhóm ghép cặp khi số liệu là
định lượng hoặc thứ hạng, phân bố không chuẩn
• Ví dụ: So sánh ảnh hưởng của số năm uống thuốc tránh thai
trên bệnh K vú trong 1 NC bệnh-chứng ghép cặp
Cặp 1 2 3 4 5 6 7 8 9 10
Ung thư 2,0 10,0 7,1 2,3 3,0 4,1 10,0 10,5 12,1 15,0
Chứng 1,5 9,1 8,1 1,5 3,1 5,2 1,0 9,6 7,6 9,0
Chênh lệch 0,5 0,9 -1,0 0,8 -0,1 -1,1 9,0 0,9 4,5 6,0
Bỏ dấu 0,5 0,9 1,0 0,8 0,1 1,1 9,0 0,9 4,5 6,0
Thứ tự 2 4,5 6 3 1 7 10 4,5 8 9
Thứ tự có dấu 2 4,5 -6 3 -1 -7 10 4,5 8 9
Wilcoxon signed-rank test (tiếp)%
• Tính tổng thứ hạng mang dấu dương T (bỏ
các thứ hạng mang dấu âm):
• T = 2 + 4,5 + 3 + 10 + 4,5 + 8 + 9 = 41,0
• áp dụng công thức:
• Tra bảng Z ta có p = 0,16
]24/)12)(1([
4/)1(
++
+−
=
nnn
nnTZ
4,1
]24/)120)(110(10[
4/)110(1041
=
++
+−
=Z
Phân tích hồi quy và tư
ơng quan trong NCKH
19
Các bước xác định mối tương
quan giữa 2 biến định lượng%
1. Chọn biến thích hợp để xác định mối
tương quan:!
2. Biểu thị mối tương quan giữa 2 biến
thích hợp bằng biểu đồ chấm:!
3. Viết phương trình hồi quy tuyến tính
nếu thích hợp !
4. Xác định hệ số tương quan (r)!
1. Chọn biến thích hợp để xác định
mối tương quan:%
* Ví dụ nào dưới đây là thích hợp để xác định mối tương
quan giữa 2 biến định lượng:
• Hàm lượng chất độc trong máu và chất độc trong nước
tiểu trên 1 nhóm đối tượng nghiên cứu !
• Hàm lượng mỡ trong thức ăn và hàm lượng mỡ trong
máu của người ăn thường ăn thức ăn đó,!
• Số lượng hồng cầu trong máu và độ cao nơi người đó
sống so với mặt biển !
• Chiều cao thanh niên giữa vùng thành thị và nông thôn !
• Chiều cao của bố liên quan đến chiều cao của con !
2. Biểu thị mối tương quan giữa 2 biến
thích hợp bằng biểu đồ chấm:%
• Vẽ đồ thị
• Quan sát đồ thị, mô tả mối tương quan:
ỉ Có tương quan hay không? !
ỉ Tương quan là tuyến tính hay không? !
ỉ Tương quan tuyến tính có rõ ràng hay không? !
ỉ Tương quan là thuận hay nghịch !
ỉ Có thể viết phương trình hồi quy tuyến tính cho mối
tương quan hay không? !
ỉ Làm thế nào để cải thiện và xác định đúng mối tư
ơng quan giữa hai biến số này? !
• Bằng biện pháp làm sạch số liệu?
• Bằng cách tách chia nhỏ bộ số liệu?
gr sbp age:
sb
p
age 17 70
110
220
20
gr sbp age, s([_n])
drop in 70
sb
p
age 17 70
110
220
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15 16
17
18 19
20
21
22
23 24
25 26
27
28
29
30
31
32
33 34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54 55
56
57 58
59
60
61
62 63
64 65
66
67
68
69
70
sb
p
age 17 70
110
185
- predict yhat
- gr sbp yhat age, c(.l)
age
sbp
Fitted values
17 70
110
185
3. Phương trình hồi quy tuyến tính
3.1. Viết phương trình: %
Dạng tổng quát: , 'y = a + bx '!
trong đó: ,!
• X giá trị của biến độc lập !
• Y giá trị của biến phụ thuộc ứng với giá trị X !
• b hệ số hồi quy biểu thị độ dốc của đường hồi quy:%
• a là số chặn được tính bằng công thức: %
• Giá trị a là bằng y khi x bằng 0 (zero). !
∑ ∑
∑ ∑ ∑
∑
∑
−
−
=
−
−−
=
n
x
x
n
yx
yx
xx
yyxx
b
i
i
ii
ii
2
2
2 )(
))((
)(
))((
xbya −=
21
3.2. Xem xét mối liên quan giữa Y và X
có ý nghĩa thống kê hay không?
• Kiểm định với test t theo công thức: %
• Tra bảng t với độ tự do = n - 2 để xác định t tư
ơng ứng với α%
• Kết luận dựa vào sự khác biệt giữa t tra từ
bảng và t tính từ công thức. %
2
222
)()2(
)()()(
XXn
XXbYY
b
bSE
bt
−−
−−−
==
∑
∑ ∑
3.3. Ước lượng hệ số hồi quy b từ
mẫu ra quần thể:
• Hệ số hồi quy của quần thể được ký hiệu là β %
• Số chặn của quần thể được ký hiệu là α %
• Công thức ước lượng khoảng cho hệ số hồi quy
β của quần thể: %
%
• * Chú ý: Hệ số hồi quy β và số chặn α này khác
với α và β trong xác định độ tin cậy %
2
222
2/ )()2(
)()(
XXn
XXbYY
tb
−−
−−−
±
∑
∑ ∑
∝
Viết phương trình hồi quy theo
STATA: Lệnh: reg sbp age %
Source | SS df MS Number of obs = 69
---------+------------------------------ F( 1, 67) = 121.27
Model | 14951.2546 1 14951.2546 Prob > F = 0.0000
Residual | 8260.51351 67 123.291246 R-squared = 0.6441
---------+------------------------------ Adj R-squared = 0.6388
Total | 23211.7681 68 341.349531 Root MSE = 11.104
--------------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+----------------------------------------------------------
age | .9833276 .0892947 11.012 0.000 .8050947 - 1.161561
_cons | 103.3491 4.331896 23.858 0.000 94.70256 - 111.9956
----------------------------------------------------------
• Huyết áp tối đa = 103,35 + 0,98 tuổi%
• Biến tuổi đóng góp 64% sự biến đổi của huyết áp tối đa %
* Điều kiện để có thể viết được phương
trình hồi quy giữa 2 biến định lượng
• Biểu đồ chấm thể hiện mối tương quan tuyến tính rõ%
• Có 1 mối quan hệ nhân quả giữa 2 biến %
• Biến x được lựa chọn bởi người nghiên cứu (không
ngẫu nhiên) trong khi biến y là ngẫu nhiên.%
• Phân bố các giá trị của cả biến x và y phải chuẩn, %
• Một giá trị của x thường cho 1 tập hợp các giá trị của y
và chúng phải có các điều kiện sau:%
ỉ Các tập hợp này phải được phân bố chuẩn!
ỉ Chúng có cùng giá trị phương sai!
ỉ Giá trị trung bình của các tập hợp này phải nằm trên 1
đường thẳng (chính là đường hồi quy)!
• Các giá trị y là độc lập với nhau, tức là không phụ
thuộc vào các giá trị khác nhau của x.%
22
4. Hệ số tương quan (r)
• Chỉ áp dụng với 2 biến định lượng có quan hệ
nhân quả, tuy nhiên không cần biết biến nào là
phụ thuộc hoặc độc lập!
!
4.1. Đo lường độ lớn của tương quan: %
• Hệ số tương quan %
• Hoặc:
∑ ∑
∑
−−
−−
=
22 )()(
))((
YYXX
YYXX
r
∑ ∑∑ ∑
∑ ∑ ∑
−−
−
=
2222 )()(
))((
iiii
iiii
yynxxn
yxyxn
r
4.2. Một số đặc tính của hệ số tư
ơng quan (r):
• Chỉ biểu thị mối tương quan tuyến tính!
• r dao động trong khoảng từ -1 đến +1. !
• r càng gần 1 hoặc - 1 thì mối tương quan giữa 2
biến càng lớn; !
• r càng gần 0 (zero) thì tương quan càng nhỏ. !
• Khi r = 0, hai biến không có sự tương quan
tuyến tính (nhưng có thể có tương quan dạng
khác).!
• r là hệ số tương quan xác định từ mẫu, trong khi
hệ số tương quan của quần thể là rho (ρ). !
4.3. Kiểm định giả thuyết cho giá trị r:
• Giả thuyết ,Ho: ,ρ = 0 %
, , , ,Ha: ,ρ ≠ 0%
• Test thống kê:, %
• Tra bảng t-student với độ tự do = n - 2 và α tư
ơng ứng. %
• Kết luận: Nếu t tính từ công thức > t tra từ bảng
à tức là p < α; Ho bị loại bỏ và mối tương quan
giữa 2 biến có ý nghĩa thống kê và ngược lại. ,%
22 1
2
)2(
)1()( r
nr
n
r
r
rSE
rt
−
−
=
−
−
==
4.4. Hệ số tương quan và hệ số xác định:
• Tham số mẫu:,%
%
• Tham số quần thể: ,%
%
• ý nghĩa của hệ số xác định: %
2rr =
2ρρ =
r2 = 0,25 r2 = 0,15 r2 = 0,50
Y Y Y X X X
23
5. Ví dụ về một số bộ số liệu không thích
hợp với hồi quy và tương quan: %
X1 ! Y1 ! X2 ! Y2 ! X3 ! Y3 ! X4 ! Y4 !
10 % 8.04 % 10 % 9.14 % 10 % 7.46 % 8 % 6.58 %
8 % 6.95 % 8 % 8.14 % 8 % 6.77 % 8 % 5.76 %
13 % 7.58 % 13 % 8.74 % 13 % 12.74 % 8 % 7.71 %
9 % 8.81 % 9 % 8.77 % 9 % 7.11 % 8 % 8.84 %
11 % 8.33 % 11 % 9.26 % 11 % 7.81 % 8 % 8.47 %
14 % 9.96 % 14 % 8.1 % 14 % 8.84 % 8 % 7.04 %
6 % 7.24 % 6 % 6.13 % 6 % 6.08 % 8 % 5.25 %
4 % 4.26 % 4 % 3.1 % 4 % 5.39 % 19 % 12.5 %
12 % 10.84 % 12 % 9.13 % 12 % 8.15 % 8 % 5.56 %
7 % 4.82 % 7 % 7.26 % 7 % 6.42 % 8 % 7.91 %
5 % 5.68 % 5 % 4.74 % 5 % 5.73 % 8 % 6.89 %
- Lệnh: reg y1 x1
Source | SS df MS Number of obs = 11
---------+------------------------------ F( 1, 9) = 17.99
Model | 27.5100011 1 27.5100011 Prob > F = 0.0022
Residual | 13.7626904 9 1.52918783 R-squared = 0.6665
---------+------------------------------ Adj R-squared = 0.6295
Total | 41.2726916 10 4.12726916 Root MSE = 1.2366
--------------------------------------------------------------------
y1 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+----------------------------------------------------------
x1 | .5000909 .1179055 4.241 0.002 .2333701 - .7668117
_cons | 3.000091 1.124747 2.667 0.026 .4557369 - 5.544445
--------------------------------------------------------------------
- Lệnh: reg y2 x2
Source | SS df MS Number of obs = 11
---------+------------------------------ F( 1, 9) = 17.97
Model | 27.5000024 1 27.5000024 Prob > F = 0.0022
Residual | 13.776294 9 1.53069933 R-squared = 0.6662
---------+------------------------------ Adj R-squared = 0.6292
Total | 41.2762964 10 4.12762964 Root MSE = 1.2372
--------------------------------------------------------------------
y2 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+----------------------------------------------------------
x2 | .5 .1179638 4.239 0.002 .2331475 - .7668526
_cons | 3.000909 1.125303 2.667 0.026 .4552978 - 5.54652
--------------------------------------------------------------------
Lệnh reg Y1 X1
24
Lệnh reg Y2 X2 Lệnh reg Y3 X3
Lệnh reg Y4 X4 Phân biệt sai số ngẫu nhiên và
sai số hệ thống%
oo
oo
oo
oo
oo
oo
oo
oo
o
oo
oooo
oooooooooo
oooooooooooooooooooooooo
oooooooooo
oooo
oo
Sai số%
hệ thống%
May rủi%
80 % 90 %
mmHg%
A (đúng)%
%
B (sai)%
%
25
Sai số ngẫu nhiên và sai số hệ thống%
**
****
**
**
****
**
* *
* * *
* * * *
* * *
* *
* *
* * *
* * * *
* * *
* *
Khái niệm về nhiễu %
Mức độ lệ thuộc Insulin
Tỡnh trạng sống sút Khụng Cú
Sống 326 253
Chết 218 105
Tổng cộng 544 358
Tỷ lệ chết 40% 29%
Tầng 1 < 40 tuổi
Mức độ lệ thuộc Insulin
Tỡnh trạng
sống sút
Khụng Cú
Sống 15 129
Chết 0 1
Tổng cộng 15 130
Tỷ lệ chết 0% 1%
Tầng 1 ≥ 40 tuổi
Mức độ lệ thuộc Insulin
Tỡnh trạng
sống sút
Khụng Cú
Sống 311 124
Chết 218 104
Tổng cộng 529 228
Tỷ lệ chết 41% 46%
Khái niệm về nhiễu và tác động tương hỗ%
Loại nghiên cứu !
Giá trị chung và theo tầng !
Nhận xét!
Tầng 1 ! Tầng 2 !
Chung 2
tầng (crude) !
1
2
3
Thuần tập (RR)
Thuần tập (RR)
Bệnh chứng (OR)
1,02
1,74
0,96
1,86
3,00
0,45
4,00
1,00
1,83
Nhiễu và có tác
động tương hỗ
giữa các tầng
4
5
6
Thuần tập (RR)
Thuần tập (RR)
Bệnh chứng (OR)
4,00
1,00
1,83
4,00
1,00
1,83
4,00
1,00
1,83
Không nhiễu và
không có tác
động tương hỗ
7
8
9
Thuần tập (RR)
Thuần tập (RR)
Bệnh chứng (OR)
1,01
3,00
0,83
1,01
3,00
0,83
4,00
1,00
1,83
Nhiễu và không
có tác động tư
ơng hỗ
10
11
12
Thuần tập (RR)
Thuần tập (RR)
Bệnh chứng (OR)
1,07
3,00
0,36
9,40
0,33
6,00
4,00
1,00
1,83
Tác động tương
hỗ rất lớn à làm
lu mờ nhiễu
Phơi nhiễm Bệnh
Tổng
Có Không
Có 200 800 1000
Không 50 950 1000
Tổng 250 1,750 2,000
Tầng 1: Có yếu tố nhiễu
Phơi
nhiễm
Bệnh Tổng
Có Không
Có 194 706 900
Không 21 79 100
Tổng 215 785 1000
Tầng 2: Không có YT nhiễu
Phơi
nhiễm
Bệnh Tổng
Có Không
Có 6 94 100
Không 29 871 900
Tổng 35 965 1000
RR hiệu chỉnh = 1.14 !
Ví dụ về việc phân tích tầng khử nhiễu
26
Phương pháp khử nhiễu tối ưu
• Hồi quy đa biến:
Y = a + b1X1 + b2X2 + b3X3 +...... + biXi
• Hồi quy logistics
)...( 3322111
1
ii xbxbxbxbae
Y +++++−+
=
Một số test thống kê
thường dùng khác
Cụng thức Kappa
Người đỏnh giỏ 1
+ - ∑
Người đỏnh
giỏ 2
+ a b p1
- c d q1
∑ p2 q2 1
1221
)(2
qpqp
bcadK
+
−
=
Giỏ trị của Kappa (K) Cỏch giải thớch
> 0,75 Rất đồng ý
0,40 - 0,75 Đồng ý (vừa phải)
< 0,40 Khụng đồng ý
Vớ dụ (bảng tần số)
Kỹ thuật viờn XQ 1
+ - Tổng số film đọc
Kỹ thuật viờn
XQ 2
+ 1.467 1.309 2.776
- 782 16.232 17.014
Tổng số film đọc 2.249 17.541 19.790
27
Chuyển sang bảng tỷ lệ
Kỹ thuật viờn XQ 1
+ - Tỷ lệ film đọc
Kỹ thuật viờn
XQ 2
+ 0,0741 0,0662 0,1403
- 0,0395 0,8202 0,8597
Tỷ lệ film đọc 0,1136 0,8864 1
Cỏch tớnh giỏ trị Kappa
Kỹ thuật viờn XQ 1
+ - Tỷ lệ film đọc
KTV XQ
2
+ 0,0741 (a) 0,0662 (b) 0,1403 (p1)
- 0,0395 (c) 0,8202 (d) 0,8597 (q1)
Tỷ lệ film đọc 0,1136 (p2) 0,8864 (q2) 1
1221
)(2
qpqp
bcadK
+
−
=
Tổng quỏt: Bảng tần số
Chuyờn gia 1
+ - Tổng số
Chuyờn gia
2
+ a b (a + b)
- c d (c + d)
Tổng số (a + c) (b + d) n
Tổng quỏt: Bảng tỷ lệ
Chuyờn gia 1
+ - Tỷ lệ
Chuyờn gia
2
+ a/n b/n (a + b)/n
- c/n d/n (c + d)/n
Tỷ lệ (a + c)/n (b + d)/n n/n
File đính kèm:
bai_giang_dai_cuong_ve_muc_tieu_bien_so_va_phan_tich_so_lieu.pdf

