Ứng dụng sác xuất thống kê trong hỗ trợ phân loại bệnh ung thư máu

Cùng một bệnh ung thư máu nhưng có nhiều loại khác nhau như bạch cầu lymphô mãn tính, bạch cầu

dòng tủy mãn tính, bạch cầu lymphô cấp tính và bạch cầu dòng tủy cấp tính với những biểu hiện gen

của bệnh khác nhau dẫn đến điều trị khác nhau. Cùng với các kết quả xét nghiệm và sinh thiết thì việc

phân tích những dữ liệu biểu hiện gen của bệnh thu thập được sẽ góp phần hỗ trợ các bác sĩ chẩn đoán

chính xác đó là bệnh gì và có thể đưa ra phác đồ điều trị phù hợp cho từng loại bệnh. Bài báo này sẽ

giới thiệu phương pháp ứng dụng xác suất thống kê đánh giá sự khác biệt giữa các biểu hiện gen của

từng trường hợp khác nhau trong bệnh ung thư máu nói chung. Đây là phương pháp đơn giản nhưng

hiệu quả góp phần nâng cao hiệu quả điều trị bệnh hơn.

pdf 7 trang kimcuc 6960
Bạn đang xem tài liệu "Ứng dụng sác xuất thống kê trong hỗ trợ phân loại bệnh ung thư máu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Ứng dụng sác xuất thống kê trong hỗ trợ phân loại bệnh ung thư máu

Ứng dụng sác xuất thống kê trong hỗ trợ phân loại bệnh ung thư máu
LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 5
Tóm tắt
Cùng một bệnh ung thư máu nhưng có nhiều loại khác nhau như bạch cầu lymphô mãn tính, bạch cầu 
dòng tủy mãn tính, bạch cầu lymphô cấp tính và bạch cầu dòng tủy cấp tính với những biểu hiện gen 
của bệnh khác nhau dẫn đến điều trị khác nhau. Cùng với các kết quả xét nghiệm và sinh thiết thì việc 
phân tích những dữ liệu biểu hiện gen của bệnh thu thập được sẽ góp phần hỗ trợ các bác sĩ chẩn đoán 
chính xác đó là bệnh gì và có thể đưa ra phác đồ điều trị phù hợp cho từng loại bệnh. Bài báo này sẽ 
giới thiệu phương pháp ứng dụng xác suất thống kê đánh giá sự khác biệt giữa các biểu hiện gen của 
từng trường hợp khác nhau trong bệnh ung thư máu nói chung. Đây là phương pháp đơn giản nhưng 
hiệu quả góp phần nâng cao hiệu quả điều trị bệnh hơn. 
Từ khóa: Ung thư máu; thống kê; AML; ALL.
Abstract
In a process of treatment, we have to evaluate the effectiveness of cancer treatment. In leukemia 
cancer, we have four types such as chronic lymphocytic leukemia, chronic myeloid leukemia, acute 
lymphocytic leukemia and acute myeloid leukemia with different gene expression of the disease lead to 
different treatment. Along with the results of the tests and biopsies, the analysis of the gene expression 
data of disease will help doctors to diagnose the disease exactly and can provide a treatment regimen. 
There are many methods to evaluate the difference in group data. This article will introduce a statistical 
probabilistic approach that assesses the difference between the different present of the same type of 
leukemia, which contributes to the treatment of the disease more effectively.
Keywords: Leukemia cancer; statistics; AML; ALL.
Ứng dụng sác xuất thống kê trong hỗ trợ phân loại 
bệnh ung thư máu 
Application of probability statistics for classification 
of leukemia cancer
Đỗ Văn Đỉnh, Phan Văn Phùng, Nguyễn Hữu Quảng
Email: dodinh75@gmail.com
Trường Đại học Sao Đỏ
Ngày nhận bài: 16/3/2018 
Ngày nhận bài sửa sau phản biện: 15/7/2018 
Ngày chấp nhận đăng: 27/12/2018
1. GIỚI THIỆU
Sự thay đổi hoặc đột biến trong một phần ADN 
của một gen có thể là biểu hiện của một bệnh 
nào đó. Nhưng rất khó khăn để tiến hành một 
xét nghiệm để phát hiện ra những đột biến xảy ra 
bởi vì các gen lớn xuất hiện ở rất nhiều vùng nơi 
mà các đột biến có thể xảy ra. Cho tới nay vẫn 
chưa có nhà khoa học nào chỉ ra được nguyên 
nhân gây ra bệnh ung thư máu, song nghi vấn 
hiện vẫn đang tập trung ở một số nguyên nhân 
như: Nhiễm phóng xạ, ô nhiễm môi trường, yếu 
tố gen di truyền, Bệnh ung thư máu [1] được 
phân thành bốn loại bệnh chính là (1) bạch cầu 
lymphô mãn tính (CLL): các tế bào lymphô bị ảnh 
hưởng và thường tiến triển chậm. Tuổi thường 
mắc bệnh là trên 55 tuổi. Hầu như không gặp 
ở trẻ em; (2) Bệnh bạch cầu dòng tủy mãn tính 
(CML): các tế bào dòng tủy bị ảnh hưởng và giai 
đoạn đầu thường tiến triển chậm, phần lớn gặp 
ở người lớn; (3) Bệnh bạch cầu lymphô cấp tính 
(ALL): là thể phát triển ác tính của các tế bào dòng 
lymphô và tiến triển rất nhanh, thường gặp nhất ở 
trẻ em, người lớn đôi khi cũng có thể bị mắc; (4) 
Bệnh bạch cầu dòng tủy cấp tính (AML): các tế 
bào dòng tủy bị ảnh hưởng và tiến triển nhanh, có 
thể xảy ra ở cả người lớn và trẻ em. Hiện phương 
pháp điều trị ung thư máu đang được áp dụng 
tại các nước: hóa trị, liệu pháp sinh học trị liệu, 
ghép tủy/cấy tế bào gốc, hóa trị và xạ trị, uống 
thuốc. Các bác sĩ có thể kết hợp hai phương pháp 
điều trị trở lên. Xác định rõ loại bệnh sẽ giúp xác 
định phác đồ điều trị hiệu quả hơn. Bài báo này sử 
Người phản biện: 1. GS.TSKH. Thân Ngọc Hoàn
 2. PGS. TS. Nguyễn Long Giang
6NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
dụng phương pháp thống kê T-test để phân loại 
hai trong số bốn loại biểu hiện thường gặp trong 
bệnh ung thư máu [2]. Bộ cơ sở dữ liệu được sử 
dụng nghiên cứu bệnh ung thư máu được thu thập 
từ thí nghiệm microarray. Có nhiều phương pháp 
phân tích gen nhưng microarray là phương pháp 
phân tích hiện đại và mang lại hiệu quả cao với 
khả năng lai trên hàng chục nghìn lỗ gen và cho 
kết quả của chục hàng nghìn gen một lúc. Cùng 
với T-test, phân tích dữ liệu sẽ nhanh hơn. Việc sử 
dụng cơ sở dữ liệu gen để phát hiện ra đường dẫn 
truyền tín hiệu tế bào và gen sinh ung đã mang lại 
những hiểu biết mới về ung thư và cơ chế sinh 
ung. Với những hiểu biết này, một hệ thống những 
cơ sở logic cho một liệu pháp điều trị mới đã được 
hình thành, đó là liệu pháp nhắm trúng đích. Đây 
cũng là một trọng tâm chính của nghiên cứu bệnh 
ung thư hiện nay và là hy vọng cho điều trị ung thư 
trong tương lai.
2. PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Công nghệ microarray và bộ cơ sở dữ 
liệu gen
Microarray là tấm kính hoặc silicon, hay màng 
nylon mang ma trận hai chiều của các gen. Công 
nghệ ADN microarray là một công cụ được sử 
dụng để xác định xem các ADN từ một cá nhân cụ 
thể chứa một đột biến ở các gen như BRCA1 và 
BRCA2 trong ung thư vú. ADN microarray (thông 
thường được biết đến với tên gọi ADN chip hay 
chip sinh học) là một tập hợp các điểm ADN siêu 
nhỏ được gắn trên một giá thể rắn. Các nhà khoa 
học sử dụng ADN microarray để đo một cách 
đồng thời mức độ biểu hiện của lượng lớn gen 
hoặc các vùng đa gen của hệ gen. Mỗi điểm ADN 
chứa hàng picomoles (10-12 moles) của một trình 
tự gen đặc hiệu, được biết đến như các mẫu dò 
(probes hoặc reporters hay oligos). Chúng có thể 
là một đoạn ngắn của một gen hoặc một yếu tố 
ADN khác, được sử dụng để lai với một ADNc 
hoặc ARNc (hay ARN anti-sense) (được gọi là 
đích) dưới điều kiện nghiêm ngặt. Sự lai mẫu 
dò – đích thường được phát hiện và định lượng 
bởi các chất đánh dấu huỳnh quang (fluorophore-
labeled), bạc (silver-labeled) hoặc sự phát quang 
bằng phản ứng hóa học (chemiluminescence-
labeled) để xác định mức độ lặp lại của các trình 
tự acid nucleic trong đích. Một số công ty sản xuất 
microarray sử dụng phương pháp tương tự như 
những người sử dụng để làm cho vi mạch máy 
tính. Một gen chip microarray có kích thước rất 
nhỏ như minh họa trên hình 1. Đây cũng là loại 
chip được sử dụng phân tích sự khác biệt về bệnh 
ung thư máu được thử nghiệm kết quả trong phần 
thực nghiệm của bài báo.
Hình 1. Gen chip của Affymetrix [8]
Trên bề mặt, mỗi chip chứa hàng ngàn ngắn, tổng 
hợp, trình tự ADN sợi đơn, cùng thêm đến các gen 
bình thường, và các biến thể (đột biến) của gen đó 
đã được tìm thấy trong các cộng đồng người [7]. 
Khi tiến hành thí nghiệm lai trên các gen chip ta sẽ 
thu được bộ cơ sở dữ liệu gen cần phân tích của 
một loại bệnh hay bệnh một số bệnh nhân nào đó.
Bản chất của dữ liệu thô từ các thí nghiệm 
microarray là các ảnh được lưu dưới dạng file ảnh 
TIFF. Những ảnh này phải được đánh giá bằng 
phần mềm phân tích ảnh để xác định các lỗ liên 
quan đến từng thành phần trên mảng và các phép 
đo cường độ huỳnh quang của từng lỗ trong một 
kênh cũng như cường độ nền. Một số đánh giá 
khác như giá trị trung bình, điểm trung tâm, độ 
lệch tiêu chuẩn của cường độ các điểm ảnh đỏ 
và xanh thu nhận được từ những phần mềm 
chuyên biệt sử dụng cho phân tích ảnh.
Hình 2. Ba mức xử lý dữ liệu trong các thí 
nghiệm microarray
Để nhận được ma trận biểu diễn giá trị đo mức 
biểu hiện gen cuối cùng, tất cả các đánh giá chất 
lượng liên quan đến từng gen trong cùng một 
mảng hoặc các mảng giống nhau phải được kết 
hợp với nhau và ma trận tổng phải được bình 
thường hóa để các mảng khác nhau có thể so 
sánh được với nhau như được minh họa trên 
hình 2 [9].
LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 7
2.2. Phương pháp T-test
Như đã giới thiệu, ung thư máu có nhiều loại 
nhưng trong phạm vi bài báo này, ta chỉ xét trên 
hai loại ung thư máu là AML và ALL. Câu hỏi đặt ra 
là liệu cùng một loại gen biểu hiện ung thư máu thì 
ở hai loại ung thư máu khác nhau có biểu hiện sự 
khác biệt không? Và liệu dựa vào biểu hiện gen 
ta có thể phân tách được các loại ung thư máu 
không? Kết quả ta mong muốn rút ra được là có 
sự khác biệt hay không ở biểu hiện gen của cùng 
một gen ở bệnh nhân của hai loại bệnh này. 
Để thực hiện phân loại hai bộ dữ liệu, bài báo sử 
dụng phương pháp thống kê T-test [4]. Một T-test 
là một bài kiểm tra thống kê mà các thí nghiệm đặt 
ra một giả thuyết (hay 0H ), có nghĩa là người thí 
nghiệm giả định không có sự khác biệt đáng kể 
giữa hai nhóm. Trong nhiều trường hợp không chỉ 
muốn biết các nhóm được cho rằng có sự khác 
biệt, thì sự khác biệt đó là xảy ra ngẫu nhiên hay 
đó là một sự khác biệt thực sự. Khi đó phải tính 
toán thêm giá trị p - xác suất xảy ra ngẫu nhiên. 
Các giá trị nhỏ hơn giá trị p, có nhiều hơn giá trị 
khác nhau có ý nghĩa giữa hai nhóm [4].
Để thực hiện đánh giá T-test, ta phải thực hiện 
những bước sau: 
- Xác định giả thuyết: Giả thuyết là một tuyên bố 
về số liệu thực nghiệm và sự khác biệt có thể xuất 
hiện trong tổng thể. Mọi thực nghiệm đều có một 
giả thuyết không và một giả thuyết nghịch. Nói một 
cách tổng quát, ta sẽ so sánh hai nhóm để thấy 
được liệu chúng giống hay khác nhau [5].
- Chọn mức ý nghĩa nhằm xác định độ khác biệt 
để có thể được xem là có ý nghĩa của dữ liệu: 
Mức ý nghĩa (còn được gọi là alpha) là ngưỡng 
mà bạn chọn để quyết định ý nghĩa. Nếu giá trị p 
nhỏ hơn hay bằng mức ý nghĩa cho trước, số liệu 
được coi là có ý nghĩa thống kê [10].
- Xác định công thức độ lệch chuẩn. Độ lệch 
chuẩn này sẽ đo lường mức phân tán của dữ liệu. 
Đây là thông tin về tính đồng nhất của mỗi điểm 
dữ liệu trong mẫu.
 ( )2
1
ixs
N
µ−
=
−
∑
(1)
trong đó:
s là độ lệch chuẩn;
ix là đại diện mỗi giá trị;
µ là giá trị trung bình dữ liệu từng nhóm;
N là tổng số quan sát.
 - Sau đó tính giá trị thống kê t của dữ liệu. Giá 
trị thống kê t cho phép chuyển dữ liệu thành một 
dạng có thể so sánh với dữ liệu khác. Giá trị t thực 
hiện kiểm định t, cho phép tính khả năng hai nhóm 
khác nhau một cách có ý nghĩa thống kê.
1 2t
s
µ µ−
=
(2)
trong đó:
t là giá trị thống kê;
s là độ lệch chuẩn;
iµ là giá trị trung bình dữ liệu từng nhóm.
Quan sát công thức trên ta nhận thấy giá trị của 
t chính là tỉ số của tín hiệu và nhiễu, giá trị t càng 
lớn thì càng có ý nghĩa thống kê. 
- Bước thứ 5 là xác định bậc tự do của mẫu: Khi 
dùng giá trị thống kê t, bậc tự do được xác định 
dựa trên kích cỡ mẫu. Cộng số quan sát của mỗi 
nhóm và sau đó trừ đi hai. Ví dụ với df = 8 bậc tự 
do thì có 5 quan sát ở nhóm thứ nhất và 5 quan 
sát ở nhóm thứ hai.
 - Bước cuối cùng là dùng bảng t để đánh giá mức 
ý nghĩa. Bảng giá trị thống kê t (hình 3) và bậc tự do. 
Hình 3. Ví dụ của bảng phân bố 
Tìm dòng chứa bậc tự do của dữ liệu và giá trị p 
tương ứng với giá trị thống kê t mà bạn có. Cộng 
số quan sát của mỗi nhóm và sau đó trừ đi hai. 
Cuối cùng ta dùng bảng t để đánh giá mức ý nghĩa.
2.3. Ứng dụng T-test phân tích hai mẫu
Để chạy một T-test trong Matlab đầu tiên phải xác 
định. Nếu một biến nào đó có sẵn trong danh sách 
(từ Excel, từ một ví dụ) nó có thể lấy ra bằng cách 
cắt và dán các hàm.
- File Word: copy dữ liệu vào Matlab và thiết lập 
nó vào một biến.
- File Text: sử dụng các câu lệnh trong Matlab (dữ 
liệu và file Matlab ở trong cùng một folder): load 
filename.txt
- File Excel: sử dụng câu lệnh num = 
xlsread(filename)
8NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
Theo lý thuyết các thiết lập cơ bản của một T-test 
là một giá trị giả định (định nghĩa là “H” trong 
Matlab). Giá trị giả định này không có nghĩa là 
không có sự khác biệt giữa các nhóm. Nếu viết 
H = ttest (a, [giá trị giả định]) và ấn trả về, Matlab 
sẽ trả về giá trị 0 hoặc 1; 1 nghĩa là giá trị giả 
định không chính xác và các sự khác biệt giữa hai 
nhóm; 0 nghĩa là giá trị giả định chính xác: không 
có sự khác biệt nào đáng kể.
Đối với các mẫu không cùng loại ta sử dụng T-test 
2 mẫu.
3. KẾT QUẢ THỰC NGHIỆM
Hình 4. Trích 8 bệnh nhân (cột C đến J) và 30 gen đầu tiên trong bộ số liệu của bệnh nhân ALL
Hình 5. Trích 8 bệnh nhân (cột C đến J) và 30 gen đầu tiên trong bộ số liệu của bệnh nhân AML
3.1. Cơ sở dữ liệu
Hai bộ cơ sở dữ liệu về bệnh ung thư máu được 
sử dụng ở đây được lấy từ bộ cơ sở dữ liệu 
được lưu trong bộ cơ sở của St.Jude Children’s 
Research Hospital. Hai bộ số liệu này là của 44 
bệnh nhân mắc bệnh bạch cầu cấp dòng lymphô 
(ALL) và 44 bệnh nhân mắc bạch cầu cấp dòng 
tủy (AML), mẫu của 88 bệnh nhân này được lấy 
tại thời điểm chẩn đoán và thu được trên chip 
Affymetrix Hgu6800. Kết quả thu được là mức 
biểu hiện của 12627 gen. Bộ số liệu ALL được 
minh họa trên hình 4. Và bộ số liệu AML được 
minh họa trên hình 5 [3].
LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 9
Hai bộ số liệu trên bao gồm:
- Cột thứ nhất là Probe set, là các hố gen hay là 
cái đầu dò, đây là các lỗ (hay giếng được gắn sẵn 
trên các giá microarray). Có tất cả 12627 lỗ gen 
ứng với 12627 gen khác nhau; 
- Cột thứ hai là gen được gắn trên các đầu dò 
của microarray;
- Cột thứ ba trở đi là các biểu hiện gen ứng với 
từng gen của từng bệnh nhân đã được mã hóa 
thành số. Với 44 cột tương ứng với 44 bệnh nhân 
khác nhau.
Cả hai bộ số liệu đều được thể hiện cùng số lượng 
gen và gen trên các hố gen đều giống nhau. Tất 
cả các gen trong bộ số liệu này là tất cả các gen 
được phát hiện ra trong mẫu xét nghiệm, bao gồm 
cả gen biểu hiện ung thư máu và gen không biểu 
hiện của ung thư máu. Ta chỉ thực hiện phân tích 
một số gen có biểu hiện ung thư máu, trong 12627 
gen trong bộ số liệu, ta tìm và chọn ra khoảng 40 
gen để thực hiện nghiên cứu và phân tích số liệu.
Ung thư máu có nhiều loại nhưng trong phạm vi 
bài báo này, ta chỉ xét trên hai loại ung thư máu là 
AML và ALL. Câu hỏi đặt ra là liệu cùng một loại 
gen biểu hiện ung thư máu thì ở hai loại ung thư 
máu khác nhau chúng có biểu hiện sự khác biệt 
không? Và liệu dựa vào biểu hiện gen ta có thể 
phân tách được các loại ung thư máu không?.
Kết quả ta mong muốn rút ra được là có sự khác 
biệt hay không ở biểu hiện gen của cùng một gen 
ở bệnh nhân của hai loại bệnh này.
3.2. Kết quả
Áp dụng lý thuyết thống kê vào hai bộ số liệu ung 
thư máu, kiểm định T-test hai nhóm [5] được định 
nghĩa bằng công thức sau:
1 2
2 2
1 2
1 2
x xt
s s
n n
−
=
 
+ 
 
(3)
trong đó:
1x và 2x là trung bình của hai nhóm; 
1s và 2s là độ lệch chuẩn của hai nhóm;
1n và 2n là số lượng mẫu của hai nhóm.
Trước khi thực hiện phương pháp kiểm định T ta 
phải tiến hành kiểm tra bộ số liệu yêu cầu đáp ứng 
những điều kiện hay giả định sau:
- Hai nhóm so sánh phải hoàn toàn độc lập nhau. 
Khi nói đến độc lập ở đây là nói đến hai nhóm 
không có tương quan đến nhau. Độc lập có 
nghĩa là không có liên hệ với nhau. Ví dụ ở đây 
ta có một nhóm 1 gồm bệnh nhân A, B, C và một 
nhóm 2 gồm bệnh nhân X, Y, Z thì hai nhóm độc 
lập nhau. Nhưng nếu hai nhóm có chung 1 bệnh 
nhân thì hai nhóm không độc lập nhau.
- Biến so sánh phải tuân theo phân phối 
chuẩn Gaussian.
- Phương sai của hai nhóm bằng nhau hoặc gần 
bằng nhau.
- Các đối tượng phải được chọn ngẫu nhiên.
Kiểm định T hai mẫu để trả lời câu hỏi hai mẫu 
có cùng một luật phân phối, hay cụ thể hơn là 
hai mẫu có thật sự có cùng trị số trung bình hay 
không. Do đó, nhiệm vụ ở đây là phân tích bộ số 
liệu này để xác định là có hay không sự khác 
biệt biểu hiện của một gen ở hai bệnh ung thư 
khác nhau hay không. Kết luận rút ra được sẽ 
có ý nghĩa lâm sàng chẩn đoán bệnh và đưa ra 
được các khuyến cáo cho bác sĩ trong quá trình 
chữa bệnh cho bệnh nhân.
Để đơn giản và dễ dàng thao tác, nhóm tác giả 
đã thực hiện xây dựng giao diện người dùng với 
bộ cơ sở dữ liệu tích hợp các gen ung thư máu 
chung. Điều này giúp dễ dàng thực hiện phân tích 
và đánh giá kết quả phân tích cũng như xử lý cơ 
sở dữ liệu. Trong giao diện này có ba phần chính: 
GENE, DATA, RESULT.
Hình 6. Giao diện kiểm tra biểu hiện gen của 
bệnh ung thư máu
Từ bộ cơ sở dữ liệu nhận được mô tả trong phần 
trên ta lựa chọn một số gen đưa vào chương trình. 
Các gen biểu hiện ung thư máu đã được sàng lọc 
từ 12627 gen là các gen sau đây:
- Gene Mouse interleukin 2 (IL-2);
- Gene Human metallothionein-I-A;
- Gene Homo sapiens BRCA1-associated 
protein 2 (BRAP2);
- Gene Human homeobox protein Cdx2;
- Gene Human class I homeoprotein (HOXA9);
- Gene H.sapiens MTCP1 gene;
- Gene Homo sapiens Notch3 (NOTCH3);
10
NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
- Gene Human aryl hydrocarbon receptor 
nuclear translocator (ARNT)...
Hình 7. Thông tin của gen được hiển thị
Sau khi chọn được gen chuyển sang phần DATA, 
ta chỉ cần chọn Begin và End (vị trí của gen ta 
chọn trong bộ cơ sở dữ liệu) tương ứng của gen 
như thông tin đã được hiển thị ở phần gen, sau đó 
ấn vào nút check, chương trình xử lý sẽ làm việc 
và kết quả sẽ được hiển thị ra ở phần RESULT.
Hình 8. Thao tác chọn vị trí của gen trong bộ cơ 
sở dữ liệu
Hình 9. Kết quả của việc chạy chương trình kiểm 
tra biểu hiện của gen Mouse interleukin 2 (IL-2) 
gen của bệnh ung thư máu
Khi đưa vào kiểm tra, kết quả cho thấy gen Mouse 
interleukin 2 (IL-2) hiển thị là không có sự khác 
biệt về biểu hiện gen giữa hai bệnh có nghĩa là 
gen không có tác dụng để phân tách được hai 
bệnh AML và ALL mặc dù gen này là một gen biểu 
hiện của ung thư máu.
Hình 10. Kết quả phân tích có sự khác biệt về 
biểu hiện gen giữa hai bệnh
Nhưng khi thử nghiệm với gen Gene Human 
metallothionein-I-A, kết quả cho ra là: “Có sự 
khác biệt về biểu hiện gen giữa hai bệnh” và “Có 
ý nghĩa chẩn đoán bệnh”. Có nghĩa là biểu hiện 
của gen này có sự khác biệt giữa hai bệnh AML 
và ALL, kết quả này có thể giúp bác sĩ sàng lọc 
được hai bệnh ung thư máu này và giúp bác sĩ có 
những quyết định đúng đắn trong liệu pháp điều 
trị bệnh, chỉ cần điều trị vào những gen biểu hiện 
sự khác nhau giữa hai loại bệnh thì sẽ mang lại 
hiệu quả cao hơn khi điều trị vào tất cả các gen 
biểu hiện ung thư máu.
Những gen mang lại kết quả có sự khác biệt là:
- Gene Human class I homeoprotein (HOXA9);
- Gene Human metallothionein-I-A;
- Gene Homo sapiens Notch3 (NOTCH3).
Một số gen biểu hiện cho bệnh ung thư máu 
như: Mouse interleukin 2 (IL-2) gene, Human 
metallothionein-I-A gene (I-A), Human class I 
homeoprotein (HOXA9) mRNA, Homo sapiens 
Notch3 (NOTCH3) mRNA Những gen này đều 
là biểu hiện của bệnh ung thư máu, nhưng với mỗi 
một loại ung thư máu khác nhau thì sẽ có những 
biểu hiện gen khác nhau. Với các gen khác khi 
kết quả phân tích cho ra kết quả là “khác biệt” có 
nghĩa là gen đang được phân tích có khả năng sẽ 
phân tách được hai loại bệnh AML và ALL, kết quả 
là “không khác biệt” có nghĩa là gen đang được 
phân tích không có khả năng phân tách được hai 
loại bệnh trên, có thể là dùng để phân tách các loại 
bệnh khác của ung thư máu. Với trường hợp kết 
quả là khác biệt, kết quả này có thể cho bác sĩ một 
khuyến nghị là loại gen này có thể dùng để chữa 
trị bệnh, với trường hợp kết quả là “không khác 
biệt” thì có thể cho bác sĩ khuyến nghị là bệnh 
nhân có thể không mắc AML hoặc ALL mà có thể 
dùng thêm các xét nghiệm khác để kết luận được 
bệnh ung thư máu chính xác của bệnh nhân.
Hình 11. Kết quả phân tích không có sự khác biệt 
về biểu hiện gen giữa hai bệnh
Vậy, không phải tất cả 12627 gen đều có biểu 
hiện mà chỉ biểu hiện ở một số gen nhất định. Đây 
là những gen đặc trưng chỉ có trong ung thư máu. 
LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 11
Cũng nhờ dựa vào việc phân tích những gen này 
có biểu hiện hay không có biểu hiện ta cũng có 
thể phân biệt được hai nhóm ung thư máu khác 
nhau là AML và ALL. Kết quả này sẽ góp phần 
hỗ trợ cho bác sĩ trong việc chẩn đoán được 
chính xác loại bệnh ung thư máu riêng biệt nào 
và từ đó có những phác đồ điều trị đúng đắn 
cho bệnh nhân.
4. KẾT LUẬN
Bài báo đã đưa ra hướng nghiên cứu và xây dựng 
được chương trình xử lý và phân tích dữ liệu 
đánh giá phân loại bệnh ung thư máu và giao diện 
người dùng giúp đỡ bác sĩ trong việc phân loại 
bệnh ung thư máu. Chương trình đều được xây 
dựng và thực hiện trên phần mềm Matlab. Kết quả 
của chương trình phân loại bệnh ung thư máu đã 
có thể đưa ra các khuyến nghị cho bác sĩ trong 
việc chẩn đoán được chính xác loại bệnh ung thư 
máu riêng biệt nào và từ đó có những phác đồ 
điều trị đúng đắn cho bệnh nhân. Đặc biệt, kết quả 
nghiên cứu là bước khởi đầu cho việc chữa trị ung 
thư bằng phương pháp liệu pháp gen, có thể áp 
dụng cho rất nhiều các bệnh viện trên mọi miền Tổ 
quốc đưa việc chữa trị ung thư ở nước ta lên một 
bước phát triển mới, nâng cao chất lượng cuộc 
sống cho nhân dân.
TÀI LIỆU THAM KHẢO
[1]. Bộ Y tế (2015). Hướng dẫn chẩn đoán và điều trị 
một số bệnh lý huyết học. 22/4/2015.
[2]. Henrik R. Wulff, Bjorn Andersen, Preben Brandenhoff, 
Flemming Buttler (1987). Statistics in Medicine.
[3]. T. Golub, D. Slonim, P. Tamayo, et al (1999). 
Molecular classification of cancer: Class discovery 
and class prediction by gene expression. 
Bioinformatics & Computational Biology, 286 
(1999), 531–537. 
[4]. J. Clerk Maxwell (1892). A Treatise on Electricity 
and Magnetism, 3rd ed., vol. 2. Oxford: Clarendon, 
pp.68–73.
[5]. John M. Cimbala (2014). Hypothesis Testing. 
Penn State University. 
[6]. John M. Cimbala (2010). Two Samples 
Hypothesis Testing.
[7]. Microarray Bioinformatics. Dov Stekel, Cambridge 
University, 2003.
[8]. https://c1.staticflickr.com/3/2527/3764113525_
d86f0edaa6_b.jpg.
[9]. Brazma, A., et al. (2001). Minimum information 
about a microarray experiment (MIAME) - 
toward standards for microarray data. Nature 
Genetics, Vol. 29: p. 365-371.
[10]. 
sigtest.htm. 

File đính kèm:

  • pdfung_dung_sac_xuat_thong_ke_trong_ho_tro_phan_loai_benh_ung_t.pdf