Giáo trình Ứng dụng tin học trong công nghệ sinh học
Để lưu bảng số liệu: chọn File
Save
Save Data File (file dữ liệu được lưu
dưới dạng .sf6 và chỉ được đọc bằng phần mềm Statgraphics). Để mở một file dữ
liệu đã lưu: chọn File
Open
Open Data Source.
Một khi dữ liệu đã được nhập vào Datasheet, có một số thao tác quan trọng có
thể được thực hiện như:
- Cut, Copy, Paste, Insert và Delete dữ liệu: khi tiến hành các lệnh trên cần
lưu ý rằng mỗi cột có một kiểu định dạng khác nhau, nếu copy cột có định
dạng Character và paste và cột có định dạng Numeric thì sẽ không thực
hiện được
Cần phải định dạng lại cột dữ liệu.
- Tạo thêm một biến mới từ các cột dữ liệu có sẵn: Click phải chuột vào một
cột mới, chọn “Modify Column”
Chọn định dạng “Formula” và nhập
công thức tính toán giữa các cột dữ liệu có sẵn.
- Sort dữ liệu: Chọn cột dữ liệu được xác định để làm cơ sở sắp xếp
Menu Edit
Sort data.
Tóm tắt nội dung tài liệu: Giáo trình Ứng dụng tin học trong công nghệ sinh học
1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHỆ TP.HCM KHOA MÔI TRƯỜNG & CÔNG NGHỆ SINH HỌC ---------- ---------- BÀI GIẢNG: ỨNG DỤNG TIN HỌC TRONG CÔNG NGHỆ SINH HỌC GVGD: BÙI VĂN THẾ VINH Tài liệu lưu hành nội bộ TP.HCM, Tháng 01/2008 2 I. GIỚI THIỆU CHUNG VỀ STATGRAPHICS CENTURION (HOẶC STATGRAPHICS PLUS) 1. Hướng dẫn cài đặt Statgraphics Centurion XVI và đăng ký bản quyền Chạy file “setup.exe” trong đĩa chương trình Một loạt hộp thoại hiện ra, nhấp chọn “Next” đến khi xuất hiện hộp thoại: Nhấp chọn “I accept the terms in the license agreement” Chọn “Next” Điền thông tin vào hộp thoại: Chạy file “KeyGen.exe” trong đĩa chương trình xuất hiện hộp thoại: 3 Nhấp chọn “Generate Serial” sẽ xuất hiện một dãy ký tự trong box “Serial Number” Nhấp chọn “(1) Copy” Paste “Serial Number” vào hộp thoại: Tiếp tục chọn “Next” liên tục và chọn “Install” để bắt đầu cài đặt, chờ đợi cài đặt xong và chọn “Finish” để hoàn tất. Khởi động Statgraphics, xuất hiện hộp thoại: Click bỏ chọn mục “Show the StatWizard at Startup” ở góc dưới bên trái rồi Chọn “Cancel” “Yes” để bỏ hộp thoại trở về màn hình chính Chọn menu “Help” Chọn “License Manager” 4 Copy “Product key” và Paste vào hộp thoại của keygen: Nhấp chọn “Generate Activation Code” Copy “Activation code” và paste vào hộp thoại của License Manager: Nhấp chọn “UPGRADE” để hoàn tất đăng ký bản quyền. * Đối với Statgraphics Plus, chỉ cần chạy file “SGWIN.EXE”. 5 2. Thiết lập các thông số hệ thống ban đầu Phần mềm Statgraphics Centurion có 2 hệ thống Menu có thể được sử dụng là “Classic menu” với các heading lần lượt là File, Edit, Plot, Describe, Compare, và “Six sigma menu” với các heading lần lượt là File, Edit, Define, Measure, Analyze, Để chuyển đổi giữa 2 hệ thống Menu chọn Edit Preferences xuất hiện hộp thoại: Chọn tab “General”, trong box “System Options” click chọn hoặc bỏ chọn mục “Use Six Sigma Menu”. Thông thường, để dễ sử dụng nên chọn hệ thống “Classic menu” (tương tự như hệ thống menu được sử dụng trong Statgraphics Plus). 3. Nhập dữ liệu và quản lý dữ liệu: Dữ liệu phải được nhập vào “DataBook”, một “DataBook” chuNn gồm 10 “datasheet” được ký hiệu bằng các chữ cái từ A đến J. Trong mỗi “datasheet” có các cột và hàng: mỗi hàng chứa thông tin về một mẫu, một trường hợp hay một quan sát đơn lẻ còn mỗi cột đại diện cho một biến. Có 2 cách để nhập dữ liệu vào “DataBook”: - Cách 1: Nhập trực tiếp vào “DataBook” - Cách 2: Nhập dữ liệu vào một phần mềm khác như Excel, sau đó copy hay load vào phần mềm Statgraphics. Trước khi nhập dữ liệu vào “DataBook”, cần phải định nghĩa biến trong mỗi cột bằng cách click phải chuột vào cột muốn định nghĩa biến Chọn “Modify column” xuất hiện hộp thoại: 6 Nhập tên biến vào mục “Name”, nhập phần chú thích vào mục “Comment” và lựa chọn dạng dữ liệu trong mục “Type” (3 dạng dữ liệu thường gặp là: dạng số “Numeric”, dạng ký tự “Character” và dạng công thức tính toán “Formula”). Sau khi định nghĩa biến đầy đủ, click chọn OK để kết thúc và bắt đầu nhập dữ liệu vào cột 1, sau đó tiếp tục lần lượt định nghĩa biến và nhập dữ liệu vào các cột tiếp theo. Ví dụ: nhập bảng số liệu: Sau khi nhập vào “DataBook” cho kết quả sau: 7 Để lưu bảng số liệu: chọn File Save Save Data File (file dữ liệu được lưu dưới dạng .sf6 và chỉ được đọc bằng phần mềm Statgraphics). Để mở một file dữ liệu đã lưu: chọn File Open Open Data Source. Một khi dữ liệu đã được nhập vào Datasheet, có một số thao tác quan trọng có thể được thực hiện như: - Cut, Copy, Paste, Insert và Delete dữ liệu: khi tiến hành các lệnh trên cần lưu ý rằng mỗi cột có một kiểu định dạng khác nhau, nếu copy cột có định dạng Character và paste và cột có định dạng Numeric thì sẽ không thực hiện được Cần phải định dạng lại cột dữ liệu. - Tạo thêm một biến mới từ các cột dữ liệu có sẵn: Click phải chuột vào một cột mới, chọn “Modify Column” Chọn định dạng “Formula” và nhập công thức tính toán giữa các cột dữ liệu có sẵn. - Sort dữ liệu: Chọn cột dữ liệu được xác định để làm cơ sở sắp xếp Menu Edit Sort data. Khi một phép phân tích được thực hiện, chỉ có một vài bảng kết quả hay đồ thị được trình bày. Để hiển thị thêm những output khác, cần phải chọn button thích hợp trên thanh công cụ “Analysis Toolbar” xuất hiện ngay trên tiêu đề của phép phân tích. Các button trên thanh công cụ phân tích rất quan trọng và được tổng kết trong bảng sau: Cen Plus Tên Chức năng Input dialog Hiển thị một hộp thoại nhập dữ liệu để thay đổi cột dữ liệu Tables Hiển thị danh sách các bảng khác có thể được tạo lập Graphs Hiển thị danh sách các dạng đồ thị khác có thể được tạo lập Save results Cho phép các phân tích đã tính toán được lưu vào các cột của datasheet 8 Analysis options Chọn những options khác nhau áp dụng cho phép phân tích đang tiến hành Pane options Chọn những options khác nhau áp dụng cho bảng biểu hay đồ thị đang sử dụng Graphics options Cho phép thay đổi tiêu đề, thang trục và các đặc tính khác trên đồ thị đang sử dụng 4. Xuất kết quả: Khi một phép phân tích được tiến hành, các kết quả được xuất ra theo nhiều cách khác nhau: Copy output sang một ứng dụng khác Click chọn một bảng biểu hay đồ thị và chọn menu Edit Copy sau đó khởi động một ứng dụng khác (Ví dụ như MS Word) để paste vào. Lưu kết quả phân tích vào một report Click phải chuột và chọn “Copy Analysis to StatReporter”, sau đó vào File Save Save StatReporter để lưu thành file .rtf (có thể import vào các ứng dụng khác như MS Word). Lưu đồ thị dưới dạng file ảnh Phóng cực đại cửa sổ đồ thị muốn lưu, click phải chuột và chọn Save Graph. 5. Lưu công việc đang tiến hành: Phép phân tích đang tiến hành có thể được lưu tại bất kỳ thời điểm nào bằng cách chọn menu File Save StatFolio (dạng file .sgp). Sau khi mở file đã lưu thì những dữ liệu và phép phân tích đang tiến hành sẽ được tự động khôi phục (Lưu ý: file data và file StatFolio phải được lưu trữ dưới nhiều file khác nhau, nếu muốn chuyển file StatFolio từ máy này sang máy khác để tiếp tục phân tích thì phải chuyển kèm file data). 9 II. TIẾN HÀNH MỘT PHÉP PHÂN TÍCH THỐNG KÊ Có hơn 150 phép phân tích thống kê trên Menu chính của chương trình Statgraphics Centurion tuy nhiên các phép phân tích khác nhau đều có cùng một cách tiến hành: 1. Khi một phép phân tích được lựa chọn từ menu chính, một hộp hội thoại nhập dữ liệu (data input dialog box) được hiển thị, hộp thoại này cho phép lựa chọn biến cần phân tích. 2. Dữ liệu sau đó được đọc và phân tích, một cửa sổ phân tích (analysis window) mới được tạo ra với các bảng biểu và đồ thị kết quả mặc định. 3. Các kết quả xuất hiện lần đầu tiên được tính toán dựa trên những thông số chuNn, các thông số mặc định này có thể được thay đổi bằng cách chọn phím “Analysis Options” trên thanh công cụ analysis; các thông số mới được thay đổi sẽ làm thay đổi kết quả trên các bảng biểu và đồ thị. 4. Các bảng kết quả và đồ thị mới có thể được thêm vào hoặc bỏ bớt bằng cách chọn phím “Tables” hay “Graphs” trên thanh công cụ phân tích. 5. Các bảng kết quả và đồ thị có thể được thay đổi bằng cách phóng đại cửa sổ tương ứng và chọn “Pane options” trên thanh công cụ phân tích. 6. Đối với các đồ thị, có thể thay đổi phần tiêu đề, trục số, điểm số, font chữ, bằng cách phóng đại cửa sổ tương ứng và chọn “Graphics options” trên thanh công cụ phân tích. 7. Các bảng kết quả và đồ thị có thể được in, chuyển thành file HTML hay copy sang các chương trình ứng dụng khác như MS Word, Power Point, 8. Các kết quả dạng số có thể được lưu thành các cột kết quả trong một data sheet bất kỳ bằng cách chọn “Save results” trên thanh công cụ phân tích. 9. Toàn bộ phép phân tích có thể được lưu lại thành file StatFolio để tiện sử dụng những lần sau. 10 1. Hộp thoại nhập dữ liệu: Hộp thoại nhập dữ liệu thường gồm 2 phần: phần bên trái liệt kê tất cả các cột dữ liệu trong datasheet, phần bên phải là nơi nhập dữ liệu cần phân tích. Muốn phân tích cột dữ liệu nào thì lựa chọn ở phần bên trái rồi click vào biểu tượng để chuyển dữ liệu sang vùng phân tích. Có thể chọn lọc lại dữ liệu cần phân tích bằng các toán tử như FIRST(k), LAST(k), ROWS(start,end), RANDOM(k), >, <, =, & (and), / (or), trong mục “Select”. Khi điều kiện chọn lọc không phải là dạng số thì giá trị điều kiện phải được đặt trong dấu ngoặc kép. 2. Cửa sổ phân tích: Khi phép phân tích được tiến hành, một cửa sổ phân tích được hiển thị: Đối với phần mềm Statgraphics Centurion, kết quả phân tích sẽ được hiển thị gồm 4 pane (cửa sổ): 2 pane bên trái là output dạng bảng và 2 pane bên phải là output dạng đồ thị. Đối với phần mềm Statgraphics Plus, kết quả được hiển thị chỉ gồm 2 pane: pane bên trái là output dạng bảng và pane bên phải là output dạng đồ thị. Nếu click đôi vào một pane bất kỳ thì pane sẽ được phóng lớn ở kích thước cực đại để dễ dàng quan sát và đọc kết quả, click đôi tiếp tục vào pane để trở về màn hình ban đầu. 11 III. PHÂN TÍCH CÁC ĐẶC TRƯNG CỦA MỘT MẪU Một vấn đề thường gặp trong thống kê là phân tích một mẫu với n giá trị quan sát từ một tổng thể. Ví dụ: đo thân nhiệt của n=130 người được kết quả sau: Dữ liệu thân nhiệt trong ví dụ trên được lưu trong file bodytemp.sf3 trong thư mục Data. 1. Chọn menu File Open Open Data Source 2. Trong hộp thoại “Data Source” chọn “STATGRAPHICS Data File” 3. Chọn file bodytemp.sf3 trong thư mục Data (C:\Program Files\Statgraphics\STATGRAPHICS Centurion XV.I\Data) 4. Dữ liệu xuất hiện như bảng sau: Thân nhiệt được trình bày trong cột bên trái với đơn vị đo là độ F. Phép phân tích một biến được tiến hành bằng cách: 1. chọn Menu Describe Numeric Data One-Variable Analysis 2. Trong hộp thoại nhập dữ liệu, chọn cột dữ liệu cần phân tích 12 3. Kết quả phân tích sẽ được trình bày trong 4 cửa sổ: Cửa sổ trên cùng bên trái cho biết dung lượng mẫu n=130 giá trị nằm trong khoảng từ 96,3 đến 100,8 độ F. Cửa sổ trên cùng bên phải biểu diễn đồ thị phân tán của số liệu với các điểm phân bố ngẫu nhiên theo hướng thẳng đứng. Các điểm số liệu tập trung trong khoảng từ 98 đến 99 độ F và thưa dần ra 2 đầu. Hai cửa sổ bên dưới biểu diễn các đặc trưng thống kê và đồ thị “box-and-whisker”. 1. Các đặc trưng thống kê: Bảng kết quả được trình bày trong cửa sổ dưới cùng bên trái biểu diễn nhiều kết quả thống kê của mẫu. Các kết quả thống kê khác có thể được thêm 13 vào bằng cách nhấp đúp chuột vào cửa sổ kết quả để phóng đại cửa sổ tương ứng và chọn “Pane Options” Một giả định thường gặp đối với dữ liệu ghi nhận được là mẫu có phân bố chuNn hay phân bố Gaussian (đồ thị có dạng hình chuông). Dữ liệu từ một mẫu có phân bố chuNn được mô tả đầy đủ bằng 2 giá trị thống kê: 1. Trung bình mẫu (Mean hay Average - X): ước lượng giá trị trung tâm của phân bố. 2. Độ lệch chuNn của mẫu (Standard deviation - SD): liên quan đến sự phân tán của số liệu. Đối với một phân bố chuNn, khoảng 68% số liệu nằm trong khoảng X ± SD, 95% số liệu nằm trong khoảng X ± 2SD và 99,73% số liệu nằm trong khoảng X ± 3SD. Hai giá trị trung bình mẫu và độ lệch chuNn chỉ có giá trị đại diện cho mẫu khi mẫu có phân bố chuNn. Hai kết quả thống kê khác có thể được sử dụng để kiểm tra lại giả định mẫu có phân bố chuNn hay không là độ lệch (Standardized skewness) và độ nhọn (Standardized kurtosis): 1. Độ lệch (Skewness): là tiêu chuNn để đánh giá tính đối xứng của số liệu. Kiểu phân bố đối xứng như phân bố chuNn có độ lệch bằng 0. Phân bố với các giá trị có xu hướng tập trung về phía bên phải của đồ thị có giá trị độ lệch > 0. Phân bố với các giá trị có xu hướng tập trung về phía bên trái của đồ thị có giá trị độ lệch < 0. 2. Độ nhọn (Kurtosis): là tiêu chuNn để xác định hình dạng của phân bố đối xứng. Phân bố chuNn có độ nhọn bằng 0. Phân bố có đồ thị nhọn hơn phân bố chuNn có giá trị độ nhọn > 0. Phân bố có đồ thị bẹt hơn phân bố chuNn có giá trị độ nhọn < 0. Nếu mẫu có phân bố chuNn, cả 2 giá trị độ lệch và độ nhọn phải nằm trong khoảng [-2;2]. 14 Một số đặc trưng thống kê khác thường được sử dụng: - Giá trị cực tiểu (Minimum) = 96,3 - Điểm tứ phân vị ¼ (25th percentile) = 97,8 - Trung vị (Median, 50th percentile) = 98,3 - Điểm tứ phân vị ¾ (75th percentile) = 98,7 - Giá trị cực đại (Maximum) = 100,8 Các giá trị này chia dãy số liệu thành 4 phần bằng nhau và là cơ sở để xây dựng đồ thị “box-and-whisker”. 2. Đồ thị “box-and-whisker” Đồ thị “box-and-whisker” được đề xuất bởi John Tukey và được xây dựng bằng cách: 1. Dựng một khối hộp “box” kéo dài từ giá trị phân vị ¼ đến giá trị phân vị ¾. Vì vậy 50% số liệu sẽ nằm trong hộp này. 2. Kẻ một đường thẳng đứng ở vị trí trung vị mẫu, chia dãy số liệu thành 2 phần bằng nhau. Nếu mẫu có phân bố đối xứng thì đường thẳng này nằm gần với trung tâm của khối hộp. 3. Đánh một dấu + vào vị trí trung bình mẫu. Một sự khác biệt đáng kể giữa 2 giá trị trung bình và trung vị cho thấy có sự hiện diện của một hay vài số liệu có khả năng gây ra sai số (các số liệu này không có chung luật phân phối so với các số liệu còn lại) làm cho phân bố của mẫu bị lệch. 15 4. Hai đầu đoạn thẳng được gọi là “whisker” nối từ giá trị cực tiểu đến điểm phân vị ¼ và từ điểm phân vị ¾ đến giá trị cực đại trừ phi có một số giá trị nằm quá xa so với khối hộp được xác định là “những điểm gây ra sai số” (outside points), trong trường hợp đó, whisker được kéo dài đến những điểm giá trị xa nhất không được xác định là điểm gây ra sai số. - Điểm “far outsides”: là những điểm có giá trị gấp 3 lần khoảng tứ phân vị (Khoảng tứ phân vị - interquartile range – là khoảng cách giữa các điểm tứ phân vị và bằng với chiều rộng của hộp “box”). Những điểm “far outsides” được biểu thị bằng một hình vuông nhỏ có một dấu + ở giữa. Nếu mẫu có phân bố chuNn thì khả năng để một số liệu nào đó được xác định là điểm “far outside” chỉ khoảng 1/300 (với mẫu có n=300). Trừ khi có hàng trăm giá trị quan sát của mẫu nếu không thì các điểm “far outside” luôn là những điểm gây ra sai số. - Điểm “outside”: là những điểm có giá trị gấp 1,5 lần khoảng tứ phân vị và được biểu diễn bằng những hình vuông nhỏ không có dấu + ở giữa. Khi mẫu có phân bố chuNn, khả năng có 1 hay 2 giá trị “outside” trong một mẫu có n=100 là khoảng 50% và không cần thiết phải chỉ ra sự hiện diện của các điểm gây ra sai số thật sự (true outlier). Những điểm này được xem là số liệu nghi ngờ, đáng quan tâm và nghiên cứu kỹ hơn. Đồ thị “box-and-whisker” trong ví dụ trên khá đối xứng. Các đoạn “whisker” có độ dài khá bằng nhau và hai giá trị trung bình và trung vị của mẫu nằm gần với trung tâm của “box”. Có 3 điểm gây ra sai số (outliers) được xác định nhưng không có điểm “far outside”. Click chuột vào điểm outlier ngoài cùng bên phải chỉ ra số liệu gây ra sai số tương ứng nằm ở hàng 15 của file dữ liệu. Nếu chọn “Pane Options” từ thanh công cụ phân tích, có thể thêm khoảng ước lượng khoảng tin cậy của trung vị được ký hiệu bằng vết lõm hình chữ V 16 3. Kiểm t ... ộc (kết quả) và số yếu tố thí nghiệm. Hộp thoại thứ hai yêu cầu chỉ ra tên của mỗi yếu tố và các giới hạn thí nghiệm đối với mỗi yếu tố. Vì tất cả các yếu tố trong thí nghiệm này có thể thay đổi tiên tục giữa các mức giới hạn dưới và giới hạn trên nên cần phải check vào mục “Continuous”. Hộp thoại thứ ba chỉ ra tên và đơn vị của biến phụ thuộc (đáp ứng kết quả) 72 Hộp thoại thứ tư chứa một danh sách tất cả các kiểu thí nghiệm sàng lọc có thể thực hiện đối với thí nghiệm gồm 8 yếu tố. Kiểu thiết kế đã được chọn ở phần trước là kiểu “Sixteenth fraction” với 16 lượt thí nghiệm là những sự kết hợp được chọn lọc cNn thận của các yếu tố thí nghiệm ở các mức giới hạn dưới và trên. Chú ý rằng bậc tự do sai số bằng 0 để ước lượng sai số thí nghiệm. Thông số này sẽ được hiệu chỉnh trong hộp thoại tiếp theo khi các điểm centerpoints được thêm vào trong phần bố trí thí nghiệm. Hộp thoại thứ tư và hộp thoại cuối cùng chỉ ra các thông số lựa chọn đối với kiểu bố trí thí nghiệm đã được chọn: 73 Để ước lượng sai số thí nghiệm cần phải có 3 điểm centerpoints nên tổng số nghiệm thức thí nghiệm là 19. Các nghiệm thức này cần phải được tiến hành theo một trật tự ngẫu nhiên. Sau khi hoàn tất hộp thoại cuối cùng, một cửa sổ phân tích có tên là “Screening Design Attributes” sẽ xuất hiện. Bảng này đưa ra những tổng kết về kiểu thiết kế thí nghiệm: Để có thêm thông tin, có thể nhấn phím “Tables” trên thanh công cụ phân tích và chọn mục “Alias Structure” 74 Mỗi dòng trên bảng biểu diễn một yếu tố tác động hay một sự kết hợp giữa các yếu tố có thể được đánh giá. Một ký tự chữ cái đại diện cho một tác động hay một yếu tố chính. Vì mỗi tác động chính xuất hiện riêng lẻ trên một hàng riêng biệt nên có thể đánh giá rõ bất kỳ một tác động khác nhau nào trong thí nghiệm. Những ký hiệu gồm 2 ký tự chữ cái như “AB” đại diện cho sự tương tác giữa 2 yếu tố thí nghiệm A và B. Trong trường hợp này, mỗi tương tác giữa 2 yếu tố thí nghiệm kết hợp với 3 cặp tương tác khác. Điều đó làm cho chúng ta không thể đánh giá riêng từng cặp tương tác vì không đủ số nghiệm thức để đánh giá hết các tác động này. Thí nghiệm bố trí cuối cùng với 19 nghiệm thức sẽ được cập nhật vào datasheet A: 75 Datasheet bao gồm: 1. Mỗi hàng là một nghiệm thức thí nghiệm 2. Cột “Block” xác định lô thí nghiệm mà mỗi nghiệm thức được gán vào. Cột này chỉ xuất hiện khi các nghiệm thức được chia thành từng lô theo yếu tố gây rắc rối. Trong trường hợp này, tất cả các nghiệm thức đều nằm trong một lô thí nghiệm. 3. Một cột dành cho mỗi yếu tố thí nghiệm 4. Một cột dành cho biến đáp ứng phụ thuộc Bước 3: Tiến hành thí nghiệm sàng lọc 19 nghiệm thức trong thí nghiệm sau đó sẽ được tiến hành và các giá trị kết quả ghi nhận được sẽ được nhập vào cột tương ứng trong datasheet. Các kết quả đáp ứng khác cũng có thể được thêm vào các cột phía sau của datasheet nếu người làm thí nghiệm muốn phân tích thêm độ lệch chuNn hay các phân tích thống kê khác của mẫu. Dữ liệu kết quả được lưu trong file howto9.sfx. Chú ý là file thí nghiệm trong Statgraphics có một phần mở rộng đặc biệt, vì chúng không chỉ chứa dữ liệu mà còn chứa thêm những thông tin bổ trợ về kiểu thiết kế thí nghiệm được lập. Bước 4: Phân tích kết quả sàng lọc Để phân tích kết quả thí nghiệm chọn menu DOE Design Analysis Analyze Design. Một hộp thoại nhập dữ liệu sẽ xuất hiện, liệt kê mỗi biến kết quả phụ thuộc 76 Mỗi biến phụ thuộc sẽ được phân tích riêng vì mỗi biến này có thể chịu ảnh hưởng bởi những yếu tố thí nghiệm khác nhau. * Phân tích về mức độ hao hụt cho phép Bước đầu tiên trong tiến trình phân tích một kiểu bố trí thí nghiệm sàng lọc là để xác định xem yếu tố nào có tác động chính đến kết quả thí nghiệm. Vấn đề này có thể được dễ dàng thực hiện nhờ đồ thị Pareto Chart là đồ thị chuNn xuất hiện khi cửa sổ phân tích được kích hoạt: Đồ thị Pareto Chart chuNn có chứa những thanh bar tương ứng với mỗi tác động được sắp xếp theo mức ý nghĩa giảm dần. Chiều dài của mỗi thanh bar tương ứng với tác động chuNn bằng với độ lớn của giá trị t tính toán được sử dụng để kiểm tra mức ý nghĩa thống kê của tác động. Một đường thẳng dọc được xây dựng tại vị trí giá trị t (Student’s) tiêu chuNn bằng 0.05. Bất kỳ thanh bar nào 77 kéo dài sang phía bên phải của đường thẳng trên cho thấy tác động đó có ý nghĩa thống kê ở mức α = 0,05. Để biết được giá trị P-values có thể xem thêm ở bảng ANOVA Chú ý rằng có 2 tác động có giá trị P-value nhỏ hơn 0,05: tác động chính của áp suất chân không và áp suất nâng. Một tác động khác là tổng của 4 tương tác AH + BD + CE + FG có giá trị P-value khoảng 0,09. Vì chúng ta quyết định tiến hành một thí nghiệm chỉ với 3 bậc tự do đối với sai số nên giá trị P-value bằng 0,1 bên cạnh có thể đủ lớn để quan tâm. Với tất cả các kiểu thiết kế có resolution IV, không thể xác định được yếu tố nào trong 4 tương tác có ảnh hưởng lớn nhất đến kết quả. Tuy nhiên, với tác động có chứa sự tương tác của 2 yếu tố ảnh hưởng chính (C và E) thì tương tác CE có thể đóng vai trò quan trọng. Nếu chúng ta sử dụng công cụ Analysis Options để loại trừ tất cả những tác động khác ngoài C, E và CE thì đồ thị Interaction Plot có thể thu nhận được như sau: 78 Kết quả cho thấy khi gia tăng áp suất chân không làm giảm độ hao hụt cho phép. Hơn nữa, tác động dễ nhận thấy hơn ở mức áp suất nâng thấp. Tác động của 2 yếu tố cũng có thể được biểu diễn bằng đồ thị Contour plot Vùng màu xanh đậm ở góc phải bên dưới chỉ sự kết hợp của áp suất làm giảm khá thấp mức độ hao hụt cho phép. Phân tích mức độ cong vênh 79 Khi tiến hành phân tích tương tự đối với mức độ cong vênh, có 2 yếu tố chính tác động được biểu diễn trong đồ thị Pareto Chart là áp suất chân không và thời gian lặp chu kỳ. Sau khi loại trừ các yếu tố không gây ảnh hưởng lên kết quả được đồ thị Contour Plot sau: 80 Kết quả cho thấy mức độ cong vênh thấp khi áp suất chân không cao và thời gian lặp chu kỳ thấp. Bước 5: Theo phương pháp lên hoặc xuống đường dốc nhất Dường như cả 2 kết quả mức độ hao hụt cho phép và mức độ cong vênh có thể được giảm xuống bằng cách tăng áp suất chân không. Cùng lúc đó, nếu giảm áp suất nâng sẽ làm giảm mức độ hao hụt cho phép còn nếu tăng thời gian lặp chu kỳ thì sẽ làm giảm mức độ cong vênh. Để khẳng định lại những kết quả này, người nghiên cứu phải quyết định tiến hành một số thí nghiệm dọc theo đường dốc nhất. Đây là đường được dự đoán sẽ làm giảm các đáp ứng kết quả nhânh chóng khi thay đổi các yếu tố thí nghiệm ban đầu. Chúng ta sẽ phải tiến hành theo 2 con đường tương ứng với 2 đáp ứng kết quả. Đối với kết quả mức độ hao hụt cho phép, trước tiên chúng ta sẽ phải giảm bớt yếu tố thí nghiệm ban đầu chỉ để lại 2 yếu tố áp suất chân không và áp suất nâng bằng cách: 1. Đóng file Howto9.sgp StatFolio 2. Mở lại file thí nghiệm trong datasheet A của Howto9.sfx 3. Chọn menu DOE Design Creation Augment Existing Design Khi hộp thoại đầu tiên xuất hiện, chọn “Collapse Design” để giảm bớt yếu tố thí nghiệm Trong hộp thoại thứ hai, click chọn vào những yếu tố muốn loại bỏ, giả sử trong trường hợp này muốn loại bỏ yếu tố Nhiệt độ khuôn 81 Sau khi nhấn OK, cột “Mold Temperature” sẽ bị xóa khỏi datasheet A. Bây giờ lặp lại bước trên cho đến khi chỉ còn lại 2 yếu tố là áp suất chân không và áp suất nâng còn lại trong thí nghiệm. Sau đó vào menu File Save as để lưu lại phần bố trí thí nghiệm với tên mới. 4. Chọn Menu Analyze Design và sửa lại mô hình đối với Shrinkage. Chắc chắn sẽ còn lại 3 tác động có ý nghĩa được ký hiệu là A, B và AB như được trình bày trong đồ thị Pareto bên dưới: 82 5. Cuối cùng, chọn “Path oh Steepest Ascent” từ danh sách bảng có sẵn trong cửa sổ Analyze Design. Trước khi kiểm tra lại kết quả, nhấn “Pane Options” và thiết lập các thông số như bên dưới: Hộp thoại trên yêu cầu 5 bước dọc theo đường dốc nhất giảm dần hoặc tăng dần mỗi mức 5 Mpa đối với áp suất chân không. Sau đó chương trình sẽ tính và hiển thị giá trị của yếu tố còn lại để chúng ta có thể loại bỏ khỏi đường dốc nhất: Khi áp suất chân không tăng thì áp suất nâng giảm. Chú ý là giá trị Shrinkage được dự đoán giảm nhanh chóng khi di chuyển dọc theo đường dốc nhất. Cuối cùng, phép ngoại suy của mô hình dẫn đến những kết quả dự đoán 83 mang giá trị âm không có thật. Mặc dù những mô hình này không thể dự đoán tốt đối với những giá trị nằm quá xa vùng thí nghiệm nhưng chúng lại có thể gợi lên được hướng tiếp cận để tìm ra được giá trị kết quả tốt hơn. Để tạo ra đường dốc nhất giảm dần đối với Warpage, bạn phải khởi động lại kiểu bố trí thí nghiệm ban đầu. Bây giờ mới bắt đầu tiến hành loại bỏ các yếu tố thí nghiệm không liên quan ngoại trừ áp suất chân không và thời gian vòng lặp. Sau đó chọn Analyze Design để sửa lại mô hình chỉ với 2 yếu tố còn lại. Đồ thị Pareto chuNn sẽ xuất hiện như hình bên dưới: Sau đó tạo đường dốc nhất giảm dần đối với Warpage Kết quả đáp ứng được dự đoán ở những điểm dọc theo đường dốc nhất giảm dần đưa ra hướng nghiên cứu tiếp tục để có kết quả tốt hơn. Người nghiên cứu hoàn toàn có thể quyết định phải tiếp tục làm gì tiếp theo dựa trên những gợi 84 ý đó để kiểm tra lại những dự đoán. Bảng bên dưới chỉ ra 5 nghiệm thức thí nghiệm dọc theo đường dốc nhất: Chú ý rằng một vài bước đầu tiên dọc theo đường dốc nhất làm giảm cả Shrinkage và Warpage mặc dù không đáng kể như mô hình đã dự đoán. Cuối cùng, cả 2 đáp ứng kết quả bắt đầu tăng trở lại. Đây là bằng chứng cho thấy những mô hình bậc 1 được đề nghị bởi thiết kế sàng lọc (Screening designs) ban đầu không đạt được độ cong trên bề mặt đáp ứng. Điều này không có gì đáng ngạc nhiên, vì nhiệm vụ ban đầu của thí nghiệm sàng lọc (screening experiment) là để lựa chọn những yếu tố quan trọng nhất trong số 8 yếu tố. Và thực tế là thí nghiệm sàng lọc đã đưa ra được những chỉ dẫn về hướng nghiên cứu tiếp tục để đạt được kết quả tốt hơn. Bước 6: Xây dựng thí nghiệm tối ưu Bây giờ số yếu tố thí nghiệm đã giảm xuống đáng kể và có thể quản lý được nên có thể xây dựng một thí nghiệm tối ưu. Dựa trên những kết quả của thí nghiệm dọc theo đường dốc nhất, có thể quyết định xây dựng một thí nghiệm thứ hai bao phủ lên toàn bộ vùng nghiệm thức sau: Áp suất chân không: 65 – 80 Mpa Áp suất nâng: 60 – 65 Mpa Thời gian lặp chu kỳ: 40 – 45 s Để xây dựng thí nghiệm này, StatFolio sẽ được xóa và sau đó chọn mục Create Design từ menu chính: 85 Trong 2 hộp thoại tiếp theo, các yếu tố và vùng thí nghiệm sẽ được xác định như bên dưới. Trong hộp thoại chọn kiểu bố trí thí nghiệm, kiểu bố trí hỗn hợp trung tâm (central composite design) được lựa chọn: 86 Kiểu bố trí thí nghiệm này gồm có 16 nghiệm thức: 1. 8 nghiệm thức ở tất cả các sự kết hợp ở 2 mức cao và thấp của 3 yếu tố thí nghiệm. Khi xây dựng đồ thị 3 chiều thì những điểm này tạo thành một khối lập phương. 2. 6 nghiệm thức ở các điểm star point định vị ở đầu cuối của các đường thẳng xuyên tâm kéo dài qua 6 mặt của khối lập phương 3. 2 nghiệm thức ở trung tâm Trong hộp thoại nhập thông số của kiểu bố trí thí nghiệm, tất cả các thông số chuNn vẫn giữ nguyên: 87 Kết quả bố trí thí nghiệm thu được như sau: 88 Chú ý: các điểm star points được thiết lập bởi Statgraphics được đặt ở các vị trí để bố trí thí nghiệm có thể xoay vòng hoàn toàn (perfectly rotatable), đây là một đặc tính bảo đảm khả năng dự đoán bằng nhau ở tất cả các hướng. Một khi nhập vào datasheet, các mức thí nghiệm được khoanh nhẹ bằng tay. Bước 7: Phân tích thí nghiệm tối ưu 16 nghiệm thức sau đó được tiến hành và các giá trị Shrinkage và Warpage được ghi nhận. Kết quả được trình bày trong file Howto9A.sfx. * Phân tích Shrinkage Đồ thị Pareto chuNn đối với Shrinkage được trình bày bên dưới: 89 Không có tác động nào có liên quan tới yếu tố C (thời gian lặp chu kỳ) gây ảnh hưởng có ý nghĩa thống kê đối với Shrinkage vì vậy yếu tố thời gian lặp chu kỳ bị loại khỏi mô hình. Đồ thị contour plot thu được như sau: Giá trị Shrinkage đạt được thấp nhất ở áp suất nâng thấp và áp suất chân không khoảng 71 Mpa. Khi giảm dần áp suất nâng xuống dưới 58 có thể làm giảm Shrinkage nhiều hơn. * Phân tích Warpage 90 Đồ thị Pareto chuNn đối với Warpage cho thấy rằng chỉ có áp suất chân không và thời gian lặp chu kỳ có tác động đáng kể: Loại bỏ yếu tố áp suất nâng ra khỏi mô hình được đồ thị contour plot sau: Giá trị Warpage đạt được thấp nhất ở thời gian lặp chu kỳ cao với áp suất chân không khoảng 67 Mpa. Tăng thời gian lặp chu kỳ lên trên 47 có thể giảm thêm Warpage. Bước 8: Tiến hành tối ưu hóa nhiều đáp ứng 91 Các thông số tối ưu hóa đối với mỗi biến đáp ứng kết quả thu được từ cửa sổ Optimization trong mỗi cửa sổ phân tích riêng biệt được tóm tắt lại như sau: Vì áp suất nâng và thời gian lặp chu kỳ chỉ tác động đến một đáp ứng nên không cần phải thay đổi các yếu tố này. Tuy nhiên, áp suất chân không có ảnh hưởng đến cả 2 đáp ứng và thông số tối ưu đối với mỗi đáp ứng lại khác nhau nên để tìm ra một mức áp suất chân không để tạo ra kết quả tốt đối với cả 2 đáp ứng thì có thể tiến hành thêm phần Multiple Response Optimization. Phải chắc chắn là bạn đang mở cửa sổ phân tích Analyze Design đối với cả 2 đáp ứng vì tiến trình Multiple Response Optimization sẽ tra thông tin trên những cửa sổ này để tìm mô hình phù hợp nhất cho mỗi đáp ứng. Sau đó chọn Menu DOE Design Analysis Multiple Response Optimization Trong hộp thoại nhập dữ liệu, chỉ ra tên của cả 2 biến đáp ứng phụ thuộc: Sau đó chương trình sẽ tìm các thông số của các yếu tố thí nghiệm để đạt được một hàm số tốt nhất. 92 Người sử dụng phải xác định rõ các giá trị ở mức thấp và cao, cũng như thông số hình dạng (shape parameter) s, thông số này có thể nằm trong khoảng từ 0,1 đến 10. Đồ thị bên dưới minh họa cho hình dạng của hàm mong muốn đối với các giá trị s khác nhau: Đối với s = 1, một đường thẳng giảm dần từ 1 ở giá trị thấp (low) đến 0 ở giá trị cao (high). Đối với s < 1, đồ thị giảm chậm sau đó giảm rất nhanh. Người phân tích có thể thiết lập thông số s lớn nếu tầm quan trọng nằm gần với mức thấp nhất (minimum level). Khi cửa sổ Multiple Response Optimization mở ra, chọn Analysis Options để được hộp thoại sau: 93 Các thông số trong hộp thoại trên chỉ ra những giá trị tác động bằng nhau đối với mỗi biến đáp ứng chỉ ra rằng Shrinkage và Warpage có tầm quan trọng như nhau. Nó cũng thiết lập các mức thấp và cao cho mỗi đáp ứng nằm trong khoảng từ 0 đến 5. Thông số s được thiết lập là 1,5 để hàm số mong muốn giảm khá nhanh hơn so với dạng đường thẳng. Cửa sổ Optimization biểu diễn kết quả cuối cùng: Đúng như mong đợi, áp suất nâng được thiết lập ở mức thấp trong khi thời gian lặp chu kỳ được thiết lập ở mức cao. Thông số tối ưu đối với áp suất chân không là 68,8 nằm giữa khoảng kết quả phân tích khi tối ưu hóa từng đáp ứng riêng biệt. Chú ý là cả 2 biến đáp ứng đều nhỏ khi tối ưu hóa riêng biệt nhưng cả 94 2 đáp ứng đều có giá trị trung bình so với sự biến động ghi nhận được trong vùng thí nghiệm.
File đính kèm:
- giao_trinh_ung_dung_tin_hoc_trong_cong_nghe_sinh_hoc.pdf