Giáo trình Ứng dụng tin học trong công nghệ sinh học

Để lưu bảng số liệu: chọn File

Save

Save Data File (file dữ liệu được lưu

dưới dạng .sf6 và chỉ được đọc bằng phần mềm Statgraphics). Để mở một file dữ

liệu đã lưu: chọn File

Open

Open Data Source.

Một khi dữ liệu đã được nhập vào Datasheet, có một số thao tác quan trọng có

thể được thực hiện như:

- Cut, Copy, Paste, Insert và Delete dữ liệu: khi tiến hành các lệnh trên cần

lưu ý rằng mỗi cột có một kiểu định dạng khác nhau, nếu copy cột có định

dạng Character và paste và cột có định dạng Numeric thì sẽ không thực

hiện được

Cần phải định dạng lại cột dữ liệu.

- Tạo thêm một biến mới từ các cột dữ liệu có sẵn: Click phải chuột vào một

cột mới, chọn “Modify Column”

Chọn định dạng “Formula” và nhập

công thức tính toán giữa các cột dữ liệu có sẵn.

- Sort dữ liệu: Chọn cột dữ liệu được xác định để làm cơ sở sắp xếp

Menu Edit

Sort data.

pdf 94 trang kimcuc 9380
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Ứng dụng tin học trong công nghệ sinh học", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Giáo trình Ứng dụng tin học trong công nghệ sinh học

Giáo trình Ứng dụng tin học trong công nghệ sinh học
 1 
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHỆ TP.HCM 
KHOA MÔI TRƯỜNG & CÔNG NGHỆ SINH HỌC 
----------    ---------- 
 BÀI GIẢNG: 
ỨNG DỤNG TIN HỌC 
TRONG CÔNG NGHỆ SINH HỌC 
 GVGD: BÙI VĂN THẾ VINH 
Tài liệu lưu hành nội bộ 
TP.HCM, Tháng 01/2008 
 2 
I. GIỚI THIỆU CHUNG VỀ STATGRAPHICS CENTURION (HOẶC 
STATGRAPHICS PLUS) 
1. Hướng dẫn cài đặt Statgraphics Centurion XVI và đăng ký bản quyền 
Chạy file “setup.exe” trong đĩa chương trình 
Một loạt hộp thoại hiện ra, nhấp chọn “Next” đến khi xuất hiện hộp thoại: 
Nhấp chọn “I accept the terms in the license agreement”  Chọn “Next”  
Điền thông tin vào hộp thoại: 
Chạy file “KeyGen.exe” trong đĩa chương trình xuất hiện hộp thoại: 
 3 
Nhấp chọn “Generate Serial” sẽ xuất hiện một dãy ký tự trong box “Serial 
Number”  Nhấp chọn “(1) Copy”  Paste “Serial Number” vào hộp thoại: 
Tiếp tục chọn “Next” liên tục và chọn “Install” để bắt đầu cài đặt, chờ đợi cài đặt 
xong và chọn “Finish” để hoàn tất. 
Khởi động Statgraphics, xuất hiện hộp thoại: 
Click bỏ chọn mục “Show the StatWizard at Startup” ở góc dưới bên trái rồi 
Chọn “Cancel”  “Yes” để bỏ hộp thoại trở về màn hình chính 
Chọn menu “Help”  Chọn “License Manager” 
 4 
Copy “Product key” và Paste vào hộp thoại của keygen: 
Nhấp chọn “Generate Activation Code”  Copy “Activation code” và paste vào 
hộp thoại của License Manager: 
Nhấp chọn “UPGRADE” để hoàn tất đăng ký bản quyền. 
* Đối với Statgraphics Plus, chỉ cần chạy file “SGWIN.EXE”. 
 5 
2. Thiết lập các thông số hệ thống ban đầu 
Phần mềm Statgraphics Centurion có 2 hệ thống Menu có thể được sử dụng là 
“Classic menu” với các heading lần lượt là File, Edit, Plot, Describe, 
Compare, và “Six sigma menu” với các heading lần lượt là File, Edit, Define, 
Measure, Analyze, Để chuyển đổi giữa 2 hệ thống Menu chọn Edit  
Preferences xuất hiện hộp thoại: 
Chọn tab “General”, trong box “System Options” click chọn hoặc bỏ chọn mục 
“Use Six Sigma Menu”. Thông thường, để dễ sử dụng nên chọn hệ thống 
“Classic menu” (tương tự như hệ thống menu được sử dụng trong Statgraphics 
Plus). 
3. Nhập dữ liệu và quản lý dữ liệu: 
Dữ liệu phải được nhập vào “DataBook”, một “DataBook” chuNn gồm 10 
“datasheet” được ký hiệu bằng các chữ cái từ A đến J. Trong mỗi “datasheet” có 
các cột và hàng: mỗi hàng chứa thông tin về một mẫu, một trường hợp hay một 
quan sát đơn lẻ còn mỗi cột đại diện cho một biến. 
Có 2 cách để nhập dữ liệu vào “DataBook”: 
- Cách 1: Nhập trực tiếp vào “DataBook” 
- Cách 2: Nhập dữ liệu vào một phần mềm khác như Excel, sau đó copy hay 
load vào phần mềm Statgraphics. 
Trước khi nhập dữ liệu vào “DataBook”, cần phải định nghĩa biến trong mỗi cột 
bằng cách click phải chuột vào cột muốn định nghĩa biến  Chọn “Modify 
column” xuất hiện hộp thoại: 
 6 
Nhập tên biến vào mục “Name”, nhập phần chú thích vào mục “Comment” và 
lựa chọn dạng dữ liệu trong mục “Type” (3 dạng dữ liệu thường gặp là: dạng số 
“Numeric”, dạng ký tự “Character” và dạng công thức tính toán “Formula”). Sau 
khi định nghĩa biến đầy đủ, click chọn OK để kết thúc và bắt đầu nhập dữ liệu 
vào cột 1, sau đó tiếp tục lần lượt định nghĩa biến và nhập dữ liệu vào các cột 
tiếp theo. 
Ví dụ: nhập bảng số liệu: 
Sau khi nhập vào “DataBook” cho kết quả sau: 
 7 
Để lưu bảng số liệu: chọn File  Save  Save Data File (file dữ liệu được lưu 
dưới dạng .sf6 và chỉ được đọc bằng phần mềm Statgraphics). Để mở một file dữ 
liệu đã lưu: chọn File  Open  Open Data Source. 
Một khi dữ liệu đã được nhập vào Datasheet, có một số thao tác quan trọng có 
thể được thực hiện như: 
- Cut, Copy, Paste, Insert và Delete dữ liệu: khi tiến hành các lệnh trên cần 
lưu ý rằng mỗi cột có một kiểu định dạng khác nhau, nếu copy cột có định 
dạng Character và paste và cột có định dạng Numeric thì sẽ không thực 
hiện được  Cần phải định dạng lại cột dữ liệu. 
- Tạo thêm một biến mới từ các cột dữ liệu có sẵn: Click phải chuột vào một 
cột mới, chọn “Modify Column”  Chọn định dạng “Formula” và nhập 
công thức tính toán giữa các cột dữ liệu có sẵn. 
- Sort dữ liệu: Chọn cột dữ liệu được xác định để làm cơ sở sắp xếp  
Menu Edit  Sort data. 
Khi một phép phân tích được thực hiện, chỉ có một vài bảng kết quả hay đồ thị 
được trình bày. Để hiển thị thêm những output khác, cần phải chọn button thích 
hợp trên thanh công cụ “Analysis Toolbar” xuất hiện ngay trên tiêu đề của phép 
phân tích. 
Các button trên thanh công cụ phân tích rất quan trọng và được tổng kết trong 
bảng sau: 
Cen Plus Tên Chức năng 
Input dialog Hiển thị một hộp thoại nhập dữ liệu 
để thay đổi cột dữ liệu 
Tables Hiển thị danh sách các bảng khác có 
thể được tạo lập 
Graphs Hiển thị danh sách các dạng đồ thị 
khác có thể được tạo lập 
Save results Cho phép các phân tích đã tính toán 
được lưu vào các cột của datasheet 
 8 
 Analysis options Chọn những options khác nhau áp 
dụng cho phép phân tích đang tiến 
hành 
 Pane options Chọn những options khác nhau áp 
dụng cho bảng biểu hay đồ thị đang 
sử dụng 
 Graphics options Cho phép thay đổi tiêu đề, thang trục 
và các đặc tính khác trên đồ thị đang 
sử dụng 
4. Xuất kết quả: 
Khi một phép phân tích được tiến hành, các kết quả được xuất ra theo nhiều cách 
khác nhau: 
Copy output sang một 
ứng dụng khác 
Click chọn một bảng biểu hay đồ thị và chọn menu 
Edit  Copy sau đó khởi động một ứng dụng khác 
(Ví dụ như MS Word) để paste vào. 
Lưu kết quả phân tích 
vào một report 
Click phải chuột và chọn “Copy Analysis to 
StatReporter”, sau đó vào File  Save  Save 
StatReporter để lưu thành file .rtf (có thể import 
vào các ứng dụng khác như MS Word). 
Lưu đồ thị dưới dạng 
file ảnh 
Phóng cực đại cửa sổ đồ thị muốn lưu, click phải 
chuột và chọn Save Graph. 
5. Lưu công việc đang tiến hành: 
Phép phân tích đang tiến hành có thể được lưu tại bất kỳ thời điểm nào bằng 
cách chọn menu File  Save StatFolio (dạng file .sgp). Sau khi mở file đã lưu 
thì những dữ liệu và phép phân tích đang tiến hành sẽ được tự động khôi phục 
(Lưu ý: file data và file StatFolio phải được lưu trữ dưới nhiều file khác nhau, 
nếu muốn chuyển file StatFolio từ máy này sang máy khác để tiếp tục phân tích 
thì phải chuyển kèm file data). 
 9 
II. TIẾN HÀNH MỘT PHÉP PHÂN TÍCH THỐNG KÊ 
Có hơn 150 phép phân tích thống kê trên Menu chính của chương trình 
Statgraphics Centurion tuy nhiên các phép phân tích khác nhau đều có cùng một 
cách tiến hành: 
1. Khi một phép phân tích được lựa chọn từ menu chính, một hộp hội 
thoại nhập dữ liệu (data input dialog box) được hiển thị, hộp thoại này 
cho phép lựa chọn biến cần phân tích. 
2. Dữ liệu sau đó được đọc và phân tích, một cửa sổ phân tích (analysis 
window) mới được tạo ra với các bảng biểu và đồ thị kết quả mặc định. 
3. Các kết quả xuất hiện lần đầu tiên được tính toán dựa trên những thông 
số chuNn, các thông số mặc định này có thể được thay đổi bằng cách 
chọn phím “Analysis Options” trên thanh công cụ analysis; các thông 
số mới được thay đổi sẽ làm thay đổi kết quả trên các bảng biểu và đồ 
thị. 
4. Các bảng kết quả và đồ thị mới có thể được thêm vào hoặc bỏ bớt bằng 
cách chọn phím “Tables” hay “Graphs” trên thanh công cụ phân tích. 
5. Các bảng kết quả và đồ thị có thể được thay đổi bằng cách phóng đại 
cửa sổ tương ứng và chọn “Pane options” trên thanh công cụ phân tích. 
6. Đối với các đồ thị, có thể thay đổi phần tiêu đề, trục số, điểm số, font 
chữ, bằng cách phóng đại cửa sổ tương ứng và chọn “Graphics 
options” trên thanh công cụ phân tích. 
7. Các bảng kết quả và đồ thị có thể được in, chuyển thành file HTML 
hay copy sang các chương trình ứng dụng khác như MS Word, Power 
Point, 
8. Các kết quả dạng số có thể được lưu thành các cột kết quả trong một 
data sheet bất kỳ bằng cách chọn “Save results” trên thanh công cụ 
phân tích. 
9. Toàn bộ phép phân tích có thể được lưu lại thành file StatFolio để tiện 
sử dụng những lần sau. 
 10 
1. Hộp thoại nhập dữ liệu: 
Hộp thoại nhập dữ liệu thường gồm 2 phần: phần bên trái liệt kê tất cả các cột dữ 
liệu trong datasheet, phần bên phải là nơi nhập dữ liệu cần phân tích. Muốn phân 
tích cột dữ liệu nào thì lựa chọn ở phần bên trái rồi click vào biểu tượng để 
chuyển dữ liệu sang vùng phân tích. Có thể chọn lọc lại dữ liệu cần phân tích bằng các 
toán tử như FIRST(k), LAST(k), ROWS(start,end), RANDOM(k), >, <, =, & 
(and), / (or), trong mục “Select”. Khi điều kiện chọn lọc không phải là dạng số 
thì giá trị điều kiện phải được đặt trong dấu ngoặc kép. 
2. Cửa sổ phân tích: 
Khi phép phân tích được tiến hành, một cửa sổ phân tích được hiển thị: 
Đối với phần mềm Statgraphics Centurion, kết quả phân tích sẽ được hiển thị 
gồm 4 pane (cửa sổ): 2 pane bên trái là output dạng bảng và 2 pane bên phải là 
output dạng đồ thị. Đối với phần mềm Statgraphics Plus, kết quả được hiển thị 
chỉ gồm 2 pane: pane bên trái là output dạng bảng và pane bên phải là output 
dạng đồ thị. Nếu click đôi vào một pane bất kỳ thì pane sẽ được phóng lớn ở 
kích thước cực đại để dễ dàng quan sát và đọc kết quả, click đôi tiếp tục vào 
pane để trở về màn hình ban đầu. 
 11 
III. PHÂN TÍCH CÁC ĐẶC TRƯNG CỦA MỘT MẪU 
 Một vấn đề thường gặp trong thống kê là phân tích một mẫu với n giá trị 
quan sát từ một tổng thể. Ví dụ: đo thân nhiệt của n=130 người được kết quả sau: 
 Dữ liệu thân nhiệt trong ví dụ trên được lưu trong file bodytemp.sf3 trong 
thư mục Data. 
1. Chọn menu File  Open  Open Data Source 
2. Trong hộp thoại “Data Source” chọn “STATGRAPHICS Data File” 
3. Chọn file bodytemp.sf3 trong thư mục Data (C:\Program 
Files\Statgraphics\STATGRAPHICS Centurion XV.I\Data) 
4. Dữ liệu xuất hiện như bảng sau: 
Thân nhiệt được trình bày trong cột bên trái với đơn vị đo là độ F. 
Phép phân tích một biến được tiến hành bằng cách: 
1. chọn Menu Describe  Numeric Data  One-Variable Analysis 
2. Trong hộp thoại nhập dữ liệu, chọn cột dữ liệu cần phân tích 
 12 
3. Kết quả phân tích sẽ được trình bày trong 4 cửa sổ: 
Cửa sổ trên cùng bên trái cho biết dung lượng mẫu n=130 giá trị nằm trong 
khoảng từ 96,3 đến 100,8 độ F. Cửa sổ trên cùng bên phải biểu diễn đồ thị phân 
tán của số liệu với các điểm phân bố ngẫu nhiên theo hướng thẳng đứng. Các 
điểm số liệu tập trung trong khoảng từ 98 đến 99 độ F và thưa dần ra 2 đầu. Hai 
cửa sổ bên dưới biểu diễn các đặc trưng thống kê và đồ thị “box-and-whisker”. 
1. Các đặc trưng thống kê: 
 Bảng kết quả được trình bày trong cửa sổ dưới cùng bên trái biểu diễn 
nhiều kết quả thống kê của mẫu. Các kết quả thống kê khác có thể được thêm 
 13 
vào bằng cách nhấp đúp chuột vào cửa sổ kết quả để phóng đại cửa sổ tương ứng 
và chọn “Pane Options” 
Một giả định thường gặp đối với dữ liệu ghi nhận được là mẫu có phân bố chuNn 
hay phân bố Gaussian (đồ thị có dạng hình chuông). Dữ liệu từ một mẫu có phân 
bố chuNn được mô tả đầy đủ bằng 2 giá trị thống kê: 
1. Trung bình mẫu (Mean hay Average - X): ước lượng giá trị trung tâm của 
phân bố. 
2. Độ lệch chuNn của mẫu (Standard deviation - SD): liên quan đến sự phân 
tán của số liệu. 
Đối với một phân bố chuNn, khoảng 68% số liệu nằm trong khoảng X ± SD, 95% 
số liệu nằm trong khoảng X ± 2SD và 99,73% số liệu nằm trong khoảng X ± 
3SD. 
Hai giá trị trung bình mẫu và độ lệch chuNn chỉ có giá trị đại diện cho mẫu khi 
mẫu có phân bố chuNn. Hai kết quả thống kê khác có thể được sử dụng để kiểm 
tra lại giả định mẫu có phân bố chuNn hay không là độ lệch (Standardized 
skewness) và độ nhọn (Standardized kurtosis): 
1. Độ lệch (Skewness): là tiêu chuNn để đánh giá tính đối xứng của số liệu. 
Kiểu phân bố đối xứng như phân bố chuNn có độ lệch bằng 0. Phân bố với 
các giá trị có xu hướng tập trung về phía bên phải của đồ thị có giá trị độ 
lệch > 0. Phân bố với các giá trị có xu hướng tập trung về phía bên trái của 
đồ thị có giá trị độ lệch < 0. 
2. Độ nhọn (Kurtosis): là tiêu chuNn để xác định hình dạng của phân bố đối 
xứng. Phân bố chuNn có độ nhọn bằng 0. Phân bố có đồ thị nhọn hơn phân 
bố chuNn có giá trị độ nhọn > 0. Phân bố có đồ thị bẹt hơn phân bố chuNn 
có giá trị độ nhọn < 0. 
Nếu mẫu có phân bố chuNn, cả 2 giá trị độ lệch và độ nhọn phải nằm trong 
khoảng [-2;2]. 
 14 
Một số đặc trưng thống kê khác thường được sử dụng: 
- Giá trị cực tiểu (Minimum) = 96,3 
- Điểm tứ phân vị ¼ (25th percentile) = 97,8 
- Trung vị (Median, 50th percentile) = 98,3 
- Điểm tứ phân vị ¾ (75th percentile) = 98,7 
- Giá trị cực đại (Maximum) = 100,8 
Các giá trị này chia dãy số liệu thành 4 phần bằng nhau và là cơ sở để xây dựng 
đồ thị “box-and-whisker”. 
2. Đồ thị “box-and-whisker” 
 Đồ thị “box-and-whisker” được đề xuất bởi John Tukey và được xây dựng 
bằng cách: 
1. Dựng một khối hộp “box” kéo dài từ giá trị phân vị ¼ đến giá trị phân vị 
¾. Vì vậy 50% số liệu sẽ nằm trong hộp này. 
2. Kẻ một đường thẳng đứng ở vị trí trung vị mẫu, chia dãy số liệu thành 2 
phần bằng nhau. Nếu mẫu có phân bố đối xứng thì đường thẳng này nằm 
gần với trung tâm của khối hộp. 
3. Đánh một dấu + vào vị trí trung bình mẫu. Một sự khác biệt đáng kể giữa 
2 giá trị trung bình và trung vị cho thấy có sự hiện diện của một hay vài số 
liệu có khả năng gây ra sai số (các số liệu này không có chung luật phân 
phối so với các số liệu còn lại) làm cho phân bố của mẫu bị lệch. 
 15 
4. Hai đầu đoạn thẳng được gọi là “whisker” nối từ giá trị cực tiểu đến điểm 
phân vị ¼ và từ điểm phân vị ¾ đến giá trị cực đại trừ phi có một số giá trị 
nằm quá xa so với khối hộp được xác định là “những điểm gây ra sai số” 
(outside points), trong trường hợp đó, whisker được kéo dài đến những 
điểm giá trị xa nhất không được xác định là điểm gây ra sai số. 
- Điểm “far outsides”: là những điểm có giá trị gấp 3 lần khoảng tứ phân vị 
(Khoảng tứ phân vị - interquartile range – là khoảng cách giữa các điểm tứ 
phân vị và bằng với chiều rộng của hộp “box”). Những điểm “far 
outsides” được biểu thị bằng một hình vuông nhỏ có một dấu + ở giữa. 
Nếu mẫu có phân bố chuNn thì khả năng để một số liệu nào đó được xác 
định là điểm “far outside” chỉ khoảng 1/300 (với mẫu có n=300). Trừ khi 
có hàng trăm giá trị quan sát của mẫu nếu không thì các điểm “far outside” 
luôn là những điểm gây ra sai số. 
- Điểm “outside”: là những điểm có giá trị gấp 1,5 lần khoảng tứ phân vị và 
được biểu diễn bằng những hình vuông nhỏ không có dấu + ở giữa. Khi 
mẫu có phân bố chuNn, khả năng có 1 hay 2 giá trị “outside” trong một 
mẫu có n=100 là khoảng 50% và không cần thiết phải chỉ ra sự hiện diện 
của các điểm gây ra sai số thật sự (true outlier). Những điểm này được 
xem là số liệu nghi ngờ, đáng quan tâm và nghiên cứu kỹ hơn. 
Đồ thị “box-and-whisker” trong ví dụ trên khá đối xứng. Các đoạn “whisker” có 
độ dài khá bằng nhau và hai giá trị trung bình và trung vị của mẫu nằm gần với 
trung tâm của “box”. Có 3 điểm gây ra sai số (outliers) được xác định nhưng 
không có điểm “far outside”. Click chuột vào điểm outlier ngoài cùng bên phải 
chỉ ra số liệu gây ra sai số tương ứng nằm ở hàng 15 của file dữ liệu. 
Nếu chọn “Pane Options” từ thanh công cụ phân tích, có thể thêm khoảng ước 
lượng khoảng tin cậy của trung vị được ký hiệu bằng vết lõm hình chữ V 
 16 
3. Kiểm t ... ộc 
(kết quả) và số yếu tố thí nghiệm. 
 Hộp thoại thứ hai yêu cầu chỉ ra tên của mỗi yếu tố và các giới hạn thí 
nghiệm đối với mỗi yếu tố. 
 Vì tất cả các yếu tố trong thí nghiệm này có thể thay đổi tiên tục giữa các 
mức giới hạn dưới và giới hạn trên nên cần phải check vào mục “Continuous”. 
Hộp thoại thứ ba chỉ ra tên và đơn vị của biến phụ thuộc (đáp ứng kết quả) 
 72 
 Hộp thoại thứ tư chứa một danh sách tất cả các kiểu thí nghiệm sàng lọc 
có thể thực hiện đối với thí nghiệm gồm 8 yếu tố. 
 Kiểu thiết kế đã được chọn ở phần trước là kiểu “Sixteenth fraction” với 
16 lượt thí nghiệm là những sự kết hợp được chọn lọc cNn thận của các yếu tố thí 
nghiệm ở các mức giới hạn dưới và trên. Chú ý rằng bậc tự do sai số bằng 0 để 
ước lượng sai số thí nghiệm. Thông số này sẽ được hiệu chỉnh trong hộp thoại 
tiếp theo khi các điểm centerpoints được thêm vào trong phần bố trí thí nghiệm. 
Hộp thoại thứ tư và hộp thoại cuối cùng chỉ ra các thông số lựa chọn đối với kiểu 
bố trí thí nghiệm đã được chọn: 
 73 
 Để ước lượng sai số thí nghiệm cần phải có 3 điểm centerpoints nên tổng 
số nghiệm thức thí nghiệm là 19. Các nghiệm thức này cần phải được tiến hành 
theo một trật tự ngẫu nhiên. Sau khi hoàn tất hộp thoại cuối cùng, một cửa sổ 
phân tích có tên là “Screening Design Attributes” sẽ xuất hiện. Bảng này đưa ra 
những tổng kết về kiểu thiết kế thí nghiệm: 
 Để có thêm thông tin, có thể nhấn phím “Tables” trên thanh công cụ phân 
tích và chọn mục “Alias Structure” 
 74 
 Mỗi dòng trên bảng biểu diễn một yếu tố tác động hay một sự kết hợp giữa 
các yếu tố có thể được đánh giá. Một ký tự chữ cái đại diện cho một tác động 
hay một yếu tố chính. Vì mỗi tác động chính xuất hiện riêng lẻ trên một hàng 
riêng biệt nên có thể đánh giá rõ bất kỳ một tác động khác nhau nào trong thí 
nghiệm. Những ký hiệu gồm 2 ký tự chữ cái như “AB” đại diện cho sự tương tác 
giữa 2 yếu tố thí nghiệm A và B. Trong trường hợp này, mỗi tương tác giữa 2 
yếu tố thí nghiệm kết hợp với 3 cặp tương tác khác. Điều đó làm cho chúng ta 
không thể đánh giá riêng từng cặp tương tác vì không đủ số nghiệm thức để đánh 
giá hết các tác động này. Thí nghiệm bố trí cuối cùng với 19 nghiệm thức sẽ 
được cập nhật vào datasheet A: 
 75 
Datasheet bao gồm: 
1. Mỗi hàng là một nghiệm thức thí nghiệm 
2. Cột “Block” xác định lô thí nghiệm mà mỗi nghiệm thức được gán 
vào. Cột này chỉ xuất hiện khi các nghiệm thức được chia thành 
từng lô theo yếu tố gây rắc rối. Trong trường hợp này, tất cả các 
nghiệm thức đều nằm trong một lô thí nghiệm. 
3. Một cột dành cho mỗi yếu tố thí nghiệm 
4. Một cột dành cho biến đáp ứng phụ thuộc 
Bước 3: Tiến hành thí nghiệm sàng lọc 
 19 nghiệm thức trong thí nghiệm sau đó sẽ được tiến hành và các giá trị 
kết quả ghi nhận được sẽ được nhập vào cột tương ứng trong datasheet. Các kết 
quả đáp ứng khác cũng có thể được thêm vào các cột phía sau của datasheet nếu 
người làm thí nghiệm muốn phân tích thêm độ lệch chuNn hay các phân tích 
thống kê khác của mẫu. Dữ liệu kết quả được lưu trong file howto9.sfx. Chú ý là 
file thí nghiệm trong Statgraphics có một phần mở rộng đặc biệt, vì chúng không 
chỉ chứa dữ liệu mà còn chứa thêm những thông tin bổ trợ về kiểu thiết kế thí 
nghiệm được lập. 
Bước 4: Phân tích kết quả sàng lọc 
 Để phân tích kết quả thí nghiệm chọn menu DOE  Design Analysis  
Analyze Design. 
 Một hộp thoại nhập dữ liệu sẽ xuất hiện, liệt kê mỗi biến kết quả phụ 
thuộc 
 76 
Mỗi biến phụ thuộc sẽ được phân tích riêng vì mỗi biến này có thể chịu ảnh 
hưởng bởi những yếu tố thí nghiệm khác nhau. 
* Phân tích về mức độ hao hụt cho phép 
 Bước đầu tiên trong tiến trình phân tích một kiểu bố trí thí nghiệm sàng 
lọc là để xác định xem yếu tố nào có tác động chính đến kết quả thí nghiệm. Vấn 
đề này có thể được dễ dàng thực hiện nhờ đồ thị Pareto Chart là đồ thị chuNn 
xuất hiện khi cửa sổ phân tích được kích hoạt: 
 Đồ thị Pareto Chart chuNn có chứa những thanh bar tương ứng với mỗi tác 
động được sắp xếp theo mức ý nghĩa giảm dần. Chiều dài của mỗi thanh bar 
tương ứng với tác động chuNn bằng với độ lớn của giá trị t tính toán được sử 
dụng để kiểm tra mức ý nghĩa thống kê của tác động. Một đường thẳng dọc được 
xây dựng tại vị trí giá trị t (Student’s) tiêu chuNn bằng 0.05. Bất kỳ thanh bar nào 
 77 
kéo dài sang phía bên phải của đường thẳng trên cho thấy tác động đó có ý nghĩa 
thống kê ở mức α = 0,05. 
 Để biết được giá trị P-values có thể xem thêm ở bảng ANOVA 
 Chú ý rằng có 2 tác động có giá trị P-value nhỏ hơn 0,05: tác động chính 
của áp suất chân không và áp suất nâng. Một tác động khác là tổng của 4 tương 
tác AH + BD + CE + FG có giá trị P-value khoảng 0,09. Vì chúng ta quyết định 
tiến hành một thí nghiệm chỉ với 3 bậc tự do đối với sai số nên giá trị P-value 
bằng 0,1 bên cạnh có thể đủ lớn để quan tâm. Với tất cả các kiểu thiết kế có 
resolution IV, không thể xác định được yếu tố nào trong 4 tương tác có ảnh 
hưởng lớn nhất đến kết quả. Tuy nhiên, với tác động có chứa sự tương tác của 2 
yếu tố ảnh hưởng chính (C và E) thì tương tác CE có thể đóng vai trò quan trọng. 
Nếu chúng ta sử dụng công cụ Analysis Options để loại trừ tất cả những tác động 
khác ngoài C, E và CE thì đồ thị Interaction Plot có thể thu nhận được như sau: 
 78 
 Kết quả cho thấy khi gia tăng áp suất chân không làm giảm độ hao hụt cho 
phép. Hơn nữa, tác động dễ nhận thấy hơn ở mức áp suất nâng thấp. 
 Tác động của 2 yếu tố cũng có thể được biểu diễn bằng đồ thị Contour 
plot 
 Vùng màu xanh đậm ở góc phải bên dưới chỉ sự kết hợp của áp suất làm 
giảm khá thấp mức độ hao hụt cho phép. 
Phân tích mức độ cong vênh 
 79 
 Khi tiến hành phân tích tương tự đối với mức độ cong vênh, có 2 yếu tố 
chính tác động được biểu diễn trong đồ thị Pareto Chart là áp suất chân không và 
thời gian lặp chu kỳ. 
 Sau khi loại trừ các yếu tố không gây ảnh hưởng lên kết quả được đồ thị 
Contour Plot sau: 
 80 
 Kết quả cho thấy mức độ cong vênh thấp khi áp suất chân không cao và 
thời gian lặp chu kỳ thấp. 
Bước 5: Theo phương pháp lên hoặc xuống đường dốc nhất 
 Dường như cả 2 kết quả mức độ hao hụt cho phép và mức độ cong vênh 
có thể được giảm xuống bằng cách tăng áp suất chân không. Cùng lúc đó, nếu 
giảm áp suất nâng sẽ làm giảm mức độ hao hụt cho phép còn nếu tăng thời gian 
lặp chu kỳ thì sẽ làm giảm mức độ cong vênh. Để khẳng định lại những kết quả 
này, người nghiên cứu phải quyết định tiến hành một số thí nghiệm dọc theo 
đường dốc nhất. Đây là đường được dự đoán sẽ làm giảm các đáp ứng kết quả 
nhânh chóng khi thay đổi các yếu tố thí nghiệm ban đầu. Chúng ta sẽ phải tiến 
hành theo 2 con đường tương ứng với 2 đáp ứng kết quả. Đối với kết quả mức độ 
hao hụt cho phép, trước tiên chúng ta sẽ phải giảm bớt yếu tố thí nghiệm ban đầu 
chỉ để lại 2 yếu tố áp suất chân không và áp suất nâng bằng cách: 
1. Đóng file Howto9.sgp StatFolio 
2. Mở lại file thí nghiệm trong datasheet A của Howto9.sfx 
3. Chọn menu DOE  Design Creation  Augment Existing Design 
Khi hộp thoại đầu tiên xuất hiện, chọn “Collapse Design” để giảm bớt yếu 
tố thí nghiệm 
 Trong hộp thoại thứ hai, click chọn vào những yếu tố muốn loại bỏ, giả sử 
trong trường hợp này muốn loại bỏ yếu tố Nhiệt độ khuôn 
 81 
 Sau khi nhấn OK, cột “Mold Temperature” sẽ bị xóa khỏi datasheet A. 
Bây giờ lặp lại bước trên cho đến khi chỉ còn lại 2 yếu tố là áp suất chân không 
và áp suất nâng còn lại trong thí nghiệm. Sau đó vào menu File  Save as để 
lưu lại phần bố trí thí nghiệm với tên mới. 
4. Chọn Menu Analyze Design và sửa lại mô hình đối với Shrinkage. Chắc 
chắn sẽ còn lại 3 tác động có ý nghĩa được ký hiệu là A, B và AB như được trình 
bày trong đồ thị Pareto bên dưới: 
 82 
5. Cuối cùng, chọn “Path oh Steepest Ascent” từ danh sách bảng có sẵn trong 
cửa sổ Analyze Design. Trước khi kiểm tra lại kết quả, nhấn “Pane Options” và 
thiết lập các thông số như bên dưới: 
 Hộp thoại trên yêu cầu 5 bước dọc theo đường dốc nhất giảm dần hoặc 
tăng dần mỗi mức 5 Mpa đối với áp suất chân không. Sau đó chương trình sẽ 
tính và hiển thị giá trị của yếu tố còn lại để chúng ta có thể loại bỏ khỏi đường 
dốc nhất: 
 Khi áp suất chân không tăng thì áp suất nâng giảm. Chú ý là giá trị 
Shrinkage được dự đoán giảm nhanh chóng khi di chuyển dọc theo đường dốc 
nhất. Cuối cùng, phép ngoại suy của mô hình dẫn đến những kết quả dự đoán 
 83 
mang giá trị âm không có thật. Mặc dù những mô hình này không thể dự đoán 
tốt đối với những giá trị nằm quá xa vùng thí nghiệm nhưng chúng lại có thể gợi 
lên được hướng tiếp cận để tìm ra được giá trị kết quả tốt hơn. 
 Để tạo ra đường dốc nhất giảm dần đối với Warpage, bạn phải khởi động 
lại kiểu bố trí thí nghiệm ban đầu. Bây giờ mới bắt đầu tiến hành loại bỏ các yếu 
tố thí nghiệm không liên quan ngoại trừ áp suất chân không và thời gian vòng 
lặp. Sau đó chọn Analyze Design để sửa lại mô hình chỉ với 2 yếu tố còn lại. Đồ 
thị Pareto chuNn sẽ xuất hiện như hình bên dưới: 
 Sau đó tạo đường dốc nhất giảm dần đối với Warpage 
 Kết quả đáp ứng được dự đoán ở những điểm dọc theo đường dốc nhất 
giảm dần đưa ra hướng nghiên cứu tiếp tục để có kết quả tốt hơn. Người nghiên 
cứu hoàn toàn có thể quyết định phải tiếp tục làm gì tiếp theo dựa trên những gợi 
 84 
ý đó để kiểm tra lại những dự đoán. Bảng bên dưới chỉ ra 5 nghiệm thức thí 
nghiệm dọc theo đường dốc nhất: 
 Chú ý rằng một vài bước đầu tiên dọc theo đường dốc nhất làm giảm cả 
Shrinkage và Warpage mặc dù không đáng kể như mô hình đã dự đoán. Cuối 
cùng, cả 2 đáp ứng kết quả bắt đầu tăng trở lại. Đây là bằng chứng cho thấy 
những mô hình bậc 1 được đề nghị bởi thiết kế sàng lọc (Screening designs) ban 
đầu không đạt được độ cong trên bề mặt đáp ứng. Điều này không có gì đáng 
ngạc nhiên, vì nhiệm vụ ban đầu của thí nghiệm sàng lọc (screening experiment) 
là để lựa chọn những yếu tố quan trọng nhất trong số 8 yếu tố. Và thực tế là thí 
nghiệm sàng lọc đã đưa ra được những chỉ dẫn về hướng nghiên cứu tiếp tục để 
đạt được kết quả tốt hơn. 
Bước 6: Xây dựng thí nghiệm tối ưu 
 Bây giờ số yếu tố thí nghiệm đã giảm xuống đáng kể và có thể quản lý 
được nên có thể xây dựng một thí nghiệm tối ưu. Dựa trên những kết quả của thí 
nghiệm dọc theo đường dốc nhất, có thể quyết định xây dựng một thí nghiệm thứ 
hai bao phủ lên toàn bộ vùng nghiệm thức sau: 
 Áp suất chân không: 65 – 80 Mpa 
 Áp suất nâng: 60 – 65 Mpa 
 Thời gian lặp chu kỳ: 40 – 45 s 
 Để xây dựng thí nghiệm này, StatFolio sẽ được xóa và sau đó chọn mục 
Create Design từ menu chính: 
 85 
 Trong 2 hộp thoại tiếp theo, các yếu tố và vùng thí nghiệm sẽ được xác 
định như bên dưới. Trong hộp thoại chọn kiểu bố trí thí nghiệm, kiểu bố trí hỗn 
hợp trung tâm (central composite design) được lựa chọn: 
 86 
 Kiểu bố trí thí nghiệm này gồm có 16 nghiệm thức: 
1. 8 nghiệm thức ở tất cả các sự kết hợp ở 2 mức cao và thấp của 3 yếu tố thí 
nghiệm. Khi xây dựng đồ thị 3 chiều thì những điểm này tạo thành một 
khối lập phương. 
2. 6 nghiệm thức ở các điểm star point định vị ở đầu cuối của các đường 
thẳng xuyên tâm kéo dài qua 6 mặt của khối lập phương 
3. 2 nghiệm thức ở trung tâm 
Trong hộp thoại nhập thông số của kiểu bố trí thí nghiệm, tất cả các thông 
số chuNn vẫn giữ nguyên: 
 87 
Kết quả bố trí thí nghiệm thu được như sau: 
 88 
 Chú ý: các điểm star points được thiết lập bởi Statgraphics được đặt ở các 
vị trí để bố trí thí nghiệm có thể xoay vòng hoàn toàn (perfectly rotatable), đây là 
một đặc tính bảo đảm khả năng dự đoán bằng nhau ở tất cả các hướng. Một khi 
nhập vào datasheet, các mức thí nghiệm được khoanh nhẹ bằng tay. 
Bước 7: Phân tích thí nghiệm tối ưu 
 16 nghiệm thức sau đó được tiến hành và các giá trị Shrinkage và 
Warpage được ghi nhận. Kết quả được trình bày trong file Howto9A.sfx. 
* Phân tích Shrinkage 
 Đồ thị Pareto chuNn đối với Shrinkage được trình bày bên dưới: 
 89 
 Không có tác động nào có liên quan tới yếu tố C (thời gian lặp chu kỳ) gây 
ảnh hưởng có ý nghĩa thống kê đối với Shrinkage vì vậy yếu tố thời gian lặp chu 
kỳ bị loại khỏi mô hình. Đồ thị contour plot thu được như sau: 
 Giá trị Shrinkage đạt được thấp nhất ở áp suất nâng thấp và áp suất chân 
không khoảng 71 Mpa. Khi giảm dần áp suất nâng xuống dưới 58 có thể làm 
giảm Shrinkage nhiều hơn. 
* Phân tích Warpage 
 90 
 Đồ thị Pareto chuNn đối với Warpage cho thấy rằng chỉ có áp suất chân 
không và thời gian lặp chu kỳ có tác động đáng kể: 
 Loại bỏ yếu tố áp suất nâng ra khỏi mô hình được đồ thị contour plot sau: 
 Giá trị Warpage đạt được thấp nhất ở thời gian lặp chu kỳ cao với áp suất 
chân không khoảng 67 Mpa. Tăng thời gian lặp chu kỳ lên trên 47 có thể giảm 
thêm Warpage. 
Bước 8: Tiến hành tối ưu hóa nhiều đáp ứng 
 91 
 Các thông số tối ưu hóa đối với mỗi biến đáp ứng kết quả thu được từ cửa 
sổ Optimization trong mỗi cửa sổ phân tích riêng biệt được tóm tắt lại như sau: 
 Vì áp suất nâng và thời gian lặp chu kỳ chỉ tác động đến một đáp ứng nên 
không cần phải thay đổi các yếu tố này. Tuy nhiên, áp suất chân không có ảnh 
hưởng đến cả 2 đáp ứng và thông số tối ưu đối với mỗi đáp ứng lại khác nhau 
nên để tìm ra một mức áp suất chân không để tạo ra kết quả tốt đối với cả 2 đáp 
ứng thì có thể tiến hành thêm phần Multiple Response Optimization. Phải chắc 
chắn là bạn đang mở cửa sổ phân tích Analyze Design đối với cả 2 đáp ứng vì 
tiến trình Multiple Response Optimization sẽ tra thông tin trên những cửa sổ này 
để tìm mô hình phù hợp nhất cho mỗi đáp ứng. Sau đó chọn Menu DOE  
Design Analysis  Multiple Response Optimization 
 Trong hộp thoại nhập dữ liệu, chỉ ra tên của cả 2 biến đáp ứng phụ thuộc: 
 Sau đó chương trình sẽ tìm các thông số của các yếu tố thí nghiệm để đạt 
được một hàm số tốt nhất. 
 92 
 Người sử dụng phải xác định rõ các giá trị ở mức thấp và cao, cũng như 
thông số hình dạng (shape parameter) s, thông số này có thể nằm trong khoảng 
từ 0,1 đến 10. Đồ thị bên dưới minh họa cho hình dạng của hàm mong muốn đối 
với các giá trị s khác nhau: 
 Đối với s = 1, một đường thẳng giảm dần từ 1 ở giá trị thấp (low) đến 0 ở 
giá trị cao (high). Đối với s < 1, đồ thị giảm chậm sau đó giảm rất nhanh. Người 
phân tích có thể thiết lập thông số s lớn nếu tầm quan trọng nằm gần với mức 
thấp nhất (minimum level). 
 Khi cửa sổ Multiple Response Optimization mở ra, chọn Analysis Options 
để được hộp thoại sau: 
 93 
 Các thông số trong hộp thoại trên chỉ ra những giá trị tác động bằng nhau 
đối với mỗi biến đáp ứng chỉ ra rằng Shrinkage và Warpage có tầm quan trọng 
như nhau. Nó cũng thiết lập các mức thấp và cao cho mỗi đáp ứng nằm trong 
khoảng từ 0 đến 5. Thông số s được thiết lập là 1,5 để hàm số mong muốn giảm 
khá nhanh hơn so với dạng đường thẳng. 
 Cửa sổ Optimization biểu diễn kết quả cuối cùng: 
 Đúng như mong đợi, áp suất nâng được thiết lập ở mức thấp trong khi thời 
gian lặp chu kỳ được thiết lập ở mức cao. Thông số tối ưu đối với áp suất chân 
không là 68,8 nằm giữa khoảng kết quả phân tích khi tối ưu hóa từng đáp ứng 
riêng biệt. Chú ý là cả 2 biến đáp ứng đều nhỏ khi tối ưu hóa riêng biệt nhưng cả 
 94 
2 đáp ứng đều có giá trị trung bình so với sự biến động ghi nhận được trong vùng 
thí nghiệm. 

File đính kèm:

  • pdfgiao_trinh_ung_dung_tin_hoc_trong_cong_nghe_sinh_hoc.pdf