Ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ sinh viên lập kế hoạch học tập

Dự đoán kết quả học tập của sinh viên một các chính xác nhằm phát hiện sớm các sinh

viên yếu kém để giúp họ lập kế hoạch học tập phù hợp là một nhu cầu cần thiết ở các

trường đại học, đặc biệt là trong công tác tư vấn, cố vấn học tập. Trong bài viết này,

chúng tôi sẽ giới thiệu một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập kế

hoạch học tập thông qua việc sử dụng các phương pháp dự đoán trong khai phá dữ liệu.

Trong đó, nhóm nghiên cứu thứ nhất liên quan đến việc sử dụng các giải thuật không cá

nhân hóa như mạng Bayes và Cây quyết định. Nhóm nghiên cứu thứ hai liên quan đến

việc sử dụng giải thuật cá nhân hóa – lấy ý tưởng từ các kỹ thuật trong hệ thống gợi ý -

như kỹ thuật phân rã ma trận thiên vị (Biased Matrix Factorization) nhằm dự đoán kết

quả học tập cho từng cá nhân sinh viên, từ đó hỗ trợ lựa chọn môn học phù hợp với năng

lực của từng cá nhân. Kết quả từ các nghiên cứu này đã cho thấy sử dụng phương pháp

máy học trong dự đoán kết quả học tập của sinh viên là khả thi và có thể ứng dụng trong

thực tế tại các trường đại học.

pdf 18 trang kimcuc 4160
Bạn đang xem tài liệu "Ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ sinh viên lập kế hoạch học tập", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ sinh viên lập kế hoạch học tập

Ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ sinh viên lập kế hoạch học tập
Ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ sinh 
viên lập kế hoạch học tập 
Nguyễn Thái Nghe 
Khoa Công nghệ thông tin và Truyền thông 
Trường Đại học Cần Thơ 
ntnghe@cit.ctu.edu.vn 
Tóm tắt 
Dự đoán kết quả học tập của sinh viên một các chính xác nhằm phát hiện sớm các sinh 
viên yếu kém để giúp họ lập kế hoạch học tập phù hợp là một nhu cầu cần thiết ở các 
trường đại học, đặc biệt là trong công tác tư vấn, cố vấn học tập. Trong bài viết này, 
chúng tôi sẽ giới thiệu một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập kế 
hoạch học tập thông qua việc sử dụng các phương pháp dự đoán trong khai phá dữ liệu. 
Trong đó, nhóm nghiên cứu thứ nhất liên quan đến việc sử dụng các giải thuật không cá 
nhân hóa như mạng Bayes và Cây quyết định. Nhóm nghiên cứu thứ hai liên quan đến 
việc sử dụng giải thuật cá nhân hóa – lấy ý tưởng từ các kỹ thuật trong hệ thống gợi ý - 
như kỹ thuật phân rã ma trận thiên vị (Biased Matrix Factorization) nhằm dự đoán kết 
quả học tập cho từng cá nhân sinh viên, từ đó hỗ trợ lựa chọn môn học phù hợp với năng 
lực của từng cá nhân. Kết quả từ các nghiên cứu này đã cho thấy sử dụng phương pháp 
máy học trong dự đoán kết quả học tập của sinh viên là khả thi và có thể ứng dụng trong 
thực tế tại các trường đại học. 
Từ khóa: Dự đoán kết quả học tập, lựa chọn môn học, lập kế hoạch học tập, cây quyết 
định, kỹ thuật phân rã ma trận 
1. Giới thiệu 
Dự đoán kết quả học tập của sinh viên một các chính xác là rất hữu ích trong nhiều ngữ 
cảnh khác nhau ở các trường đào tạo đại học và sau đại học. Chẳng hạn, xác định các ứng 
viên xuất sắc để tham gia các đội tuyển tin học, hoặc cấp học bổng nhằm khuyến khích 
họ nỗ lực hơn nữa trong học tập, hay việc xác định các sinh viên có năng lực yếu kém để 
có những biện pháp thích hợp nhằm hỗ trợ họ học tập tốt hơn. 
Thời gian gần đây, số lượng sinh viên bị buộc thôi học có chiều hướng tăng ở nhiều 
trường đại học (chẳng hạn như tại Đại học Cần Thơ, hàng năm có trên dưới 150 sinh viên 
thuộc diện buộc thôi học do kết quả học tập yếu kém [13]) và thường tập trung vào những 
sinh viên học năm thứ ba và năm thứ tư. Một phần nguyên nhân là do sinh viên không có 
kế hoạch học tập phù hợp. Hiện tượng này đã gây tổn thất lớn cho bản thân sinh viên, gia 
đình và toàn xã hội. Chính vì thế việc phát hiện sớm các học viên yếu kém để giúp họ lập 
kế hoạch học tập sao cho phù hợp là một nhu cầu rất cần thiết. 
Bên cạnh đó, phần lớn các trường đại học đã triển khai theo học chế tín chỉ nên các sinh 
viên thường bị lúng túng khi lựa chọn môn học do có nhiều môn được giảng dạy trong 
một học kỳ. Khi đó, bên cạnh khả năng tự tìm hiểu thì sinh viên sẽ cần đến sự trợ giúp 
của giáo viên cố vấn. Tuy vậy, bên cạnh kinh nghiệm của mình thì giáo viên cố vấn sẽ 
phải tra cứu kết quả học tập của từng sinh viên để trợ giúp tuỳ theo năng lực của mỗi em, 
do đó khá tốn thời gian và công sức. Vấn đề đặt ra là làm sao để sử dụng nguồn dữ liệu 
điểm sinh viên để khai thác, phân tích và đưa ra đánh giá/dự đoán để có thể gợi ý cho 
sinh viên chọn môn học một cách hiệu quả và tự động thông qua hệ thống. 
Bài viết này sẽ tóm lược lại một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập 
kế hoạch học tập bằng cách sử dụng các phương pháp trong khai phá dữ liệu mà tác giả 
và các cộng sự đã thực hiện. Trong đó, nhóm nghiên cứu thứ nhất liên quan đến việc sử 
dụng các giải thuật không cá nhân hóa như mạng Bayes và Cây quyết định; nhóm nghiên 
cứu thứ hai liên quan đến sử dụng kỹ thuật cá nhân hóa như phân rã ma trận thiên vị 
(Biased Matrix Factorization) để dự đoán kết quả học tập cho từng sinh viên, từ đó hỗ trợ 
(gợi ý) lựa chọn môn học phù hợp với năng lực của từng sinh viên. Thực nghiệm từ các 
nghiên cứu này đã cho thấy cách tiếp cận máy học trong dự đoán kết quả học tập của sinh 
viên là rất khả thi. 
2. Tiếp cận không cá nhân hoá trong dự đoán kết quả học tập (Non-personalized 
approach) 
Nhóm nghiên cứu của (Nguyễn Thái Nghe và các cộng sự, 2007, 2009, 2010) đã đề xuất 
sử dụng thông tin nhân khẩu học thu thập từ hồ sơ đầu vào của sinh viên như độ tuổi, giới 
tính, ngành học, trình độ ngoại ngữ,và điểm trung bình tích lũy (GPA) của học kỳ 
trước để dự đoán kết quả cho học kỳ sau. Việc dự đoán trước kết quả này góp phần hỗ trợ 
các sinh viên trong diện cảnh báo học vụ (do trong quy chế ở các trường, nếu một sinh 
viên trong hai học kỳ liên tiếp đạt kết quả yếu sẽ bị buộc thôi học). Để thực hiện việc dự 
đoán, nhóm tác giả đã sử dụng hai giải thuật là Cây quyết định và mạng Bayes, từ đó so 
sánh độ chính xác của hai kỹ thuật này. 
Nghiên cứu trên đã đưa ra một số đóng góp quan trọng. Thứ nhất, kết quả mà đề tài thực 
hiện đã cung cấp một cái nhìn sâu hơn trong toàn bộ quy trình ứng dụng khai phá dữ liệu 
vào thực tế, bao gồm cả những phương pháp trong việc điều chỉnh tập dữ liệu đầu vào 
(như rời rạc hoá, chuẩn hoá,..) và cải thiện độ chính xác của các giải thuật trong dự đoán. 
Thứ hai, các kết quả từ hai tình huống đã cho thấy rằng giải thuật Cây quyết định cho kết 
quả chính xác hơn giải thuật mạng Bayes trong vấn đề dự đoán kết quả học tập trên hai 
tập dữ liệu mà nhóm tác giả đã thu thập được (thử nghiệm trên công cụ mã nguồn mở 
Weka -  
Tương tự như những bài toán khác trong khai phá dữ liệu, việc xây dựng hệ thống dự 
đoán kết quả học tập cũng được thực hiện dựa trên quy trình chuẩn của khai phá dữ liệu, 
có tên là CRISP-DM (CRoss Industry Standard Process for Data Mining). Quy trình này 
bao gồm sáu giai đoạn gần tương tự như mô hình thác đổ trong phân tích và thiết kế hệ 
thống thông tin, bao gồm: Tìm hiểu vấn đề, tìm hiểu dữ liệu, chuẩn bị dữ liệu, mô hình 
hóa, đánh giá mô hình, và triển khai ứng dụng. Các giai đoạn này như được trình bày 
dưới đây cho vấn đề dự đoán kết quả học tập. 
2.1. Tìm hiểu vấn đề (Business understanding) 
Như mục tiêu ban đầu, vấn đề chính cần giải quyết ở đây là việc dự đoán kết quả học tập 
ở một học kỳ nào đó dựa trên các thông tin nhân khẩu học (độ tuổi, giới tính, trình độ anh 
văn,...) và kết quả học tập của học kỳ trước đó nhằm giúp cho sinh viên có thể tự đánh giá 
được năng lực của mình để có kế hoạch học tập cho phù hợp, và đồng thời cũng giúp cho 
các giáo viên Cố vấn học tập “cảnh báo” sớm đến các sinh viên đạt kết quả thấp. 
2.2. Tìm hiểu dữ liệu và chuẩn bị dữ liệu (Data understanding and Preparation) 
Để có được tập dữ liệu cho mô hình dự đoán, nhóm tác giả ([10][22] ) đã tìm hiểu và thu 
thập dữ liệu từ hệ thống thực tế của trường Đại học Cần Thơ, từ đó tiến hành tiền xử lý 
dữ liệu. Sơ đồ thực thể kết hợp (ERD) trong hình dưới đây trình bày một phần của hệ 
thống thông tin quản lý sinh viên trích ra từ hệ thống quản lý tại trường đại học Cần Thơ. 
Hình 1. Một phần của mô hình ERD trong hệ thống quản lý sinh viên 
Sau khi thu thập dữ liệu, nhóm tác giả đã tiền xử lý bằng cách loại bỏ các giá trị dư thừa 
và thiếu (missing), số lượng mẫu tin (mỗi mẫu tin tương ứng với một sinh viên) còn lại là 
20492 mẫu tin. 
Một vấn đề là trong tập dữ liệu thu thập được có rất nhiều thuộc tính, nên câu hỏi đặt ra là 
thuộc tính nào ảnh hưởng lớn nhất đến kết quả dự đoán? Làm sao để lựa chọn các thuộc 
tính đó? Để trả lời các câu hỏi này, nhóm nghiên cứu đã dùng phương pháp lựa chọn 
thuộc tính (feature selection). 
Thật tiện lợi là trong công cụ WEKA đã có hỗ trợ rất nhiều phương pháp giúp lựa chọn 
thuộc tính. Ở đây các tác giả đã sử dụng phương pháp lựa chọn thuộc tính thông qua đánh 
giá độ lợi thông tin của từng thuộc tính “Information Gain Attribute Evaluation”, từ đó 
xếp hạng của chúng (ranked attribute) theo thứ tự giảm dần và loại bỏ các thuộc tính mà 
độ lợi thông tin của nó quá thấp (có thể lựa chọn một ngưỡng nào đó) 
Ví dụ để dự đoán kết quả của học kỳ 5, sau khi xác định độ lợi thông tin của các thuộc 
tính quan trọng ảnh hưởng đến kết quả dự đoán, ta loại bỏ các thuộc tính không dùng đến, 
14 thuộc tính quan trọng còn lại được dùng cho việc dự đoán, mô tả trong bảng dưới đây. 
Bảng 1. Mức độ quan trọng của thuộc tính 
STT Thuộc tính Xếp hạng 
1 CGPASem4 0.4297283 
2 FOS 0.1775725 
3 Faculty 0.1313937 
4 Gender 0.0898935 
5 Entry Mark Range 0.0398948 
6 Age Range 0.0320674 
7 English Skill 0.0233605 
8 Policy Priority 0.0161708 
9 Family Job 0.0144163 
10 School Rank 0.0129788 
11 Province 0.0107892 
12 Area Priority 0.0048450 
13 Ethnic 0.0000897 
14 Religious 0.0000384 
Bảng 2. Mô tả các thuộc tính 
Stt Thuộc tính Mô tả 
1 Gender Giới tính sinh viên 
2 Age Range Độ tuổi được tính từ ngày sinh 
3 School Rank 
Trong dữ liệu thu thập được, Có 285 trường phổ thông trung 
học mà sinh viên học trước khi vào trường đại học Cần Thơ. Vì 
thế các trường học đó được sắp xếp theo các giá trị liên tục dựa 
trên sự chênh lệch giữa tỷ lệ tốt nghiệp. 
Tỷ lệ đó được tính như sau: 
Rank = AVG(Tỷ lệ tốt nghiệp đại học ) – AVG(Tỷ lệ đầu vào 
đại học ) [22] 
Giá trị rank từ 1 đến 10 {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} 
4 Policy Priority 
Mỗi sinh viên thuộc một diện chính sách, được ấn định bởi bộ 
giáo dục. vài chính sách được cộng điểm khi sinh viên thi đại 
học. Chúng ta kết hợp các giá trị này là Yes, còn lại là No 
5 Area Priority 
Phân vùng chính sách của sinh viên. Ví dụ sinh viên sống ở 
nông thôn hay thành thị  
6 Province 15 tỉnh trong vùng Đồng bằng sông Cửu Long. Các tỉnh khác có số lượng sinh viên ít được phân vào lớp “Others” 
7 Ethnicity Có 54 dân tộc trong nước Việt Nam, nhưng đa số là dan tộc KINH, vì thế ta dùng lớp “OTHERS” cho 53 dân tộc còn lại. 
8 Religious Chỉ ra xem sinh viên có thuộc tôn giáo nào hay không 
9 Entry Mark Điểm thi đậu vào đại học của sinh viên (không dưới 5) 
10 Family Job Thành phần gia đình của sinh viên. Hầu hết sinh viên thuộc thành phần “Nông dân” 
11 FOS Ngành học của sinh viên tại tường đại học Cần Thơ 
12 Faculty Mỗi sinh viên thuộc một khoa 
13 English Skill 
Trình độ Anh Văn có 4 giá trị: “A”: Trình độ A; “B”: Trình độ 
B; “C”: Trình độ C; “N”: Chưa có bằng ngoại ngữ 
14 
GPA of 
Previous 
Semester 
Điểm trung bình của học kỳ trước 
2.3. Mô hình hóa (Modelling) 
Sau bước tiền xử lý dữ liệu sẽ đến giai đoạn mô hình hoá cho việc dự đoán. Trong phần 
này sẽ trình bày việc xây dựng mô hình bao gồm các kỹ thuật sử dụng, các biến đầu vào 
và biến dự đoán (target attribute) 
Bảng 3 trình bày chi tiết dữ liệu cũng như các kỹ thuật dùng trong dự đoán kết quả học 
tập. Ở đây nhóm tác giả đã sử dụng cả hai dạng là phân lớp (cho dự đoán điểm chữ như 
A, B+ hay VeryGood, Good,..) và hồi quy (cho dự đoán điểm số, như 3.25, 3.15,..). 
Bảng 3. Giải thuật và các thuộc tính sử dụng cho hệ thống 
Vấn đề Giải thuật Biến input/output 
Đầu vào: 
• Gender 
Dự đoán kết 
quả của sinh 
viên dựa trên 
thông tin của 
họ và kết quả 
trước đây 
- Cây quyết định/ Mạng Bayes cho dự 
đoán kết quả dạng điểm chữ (Good, 
Fair,..) 
- Mô hình hồi qui cho dự đoán dạng 
điểm số (3.25, 1.2,..) 
• Age Range 
• Ethniccity 
• Province 
• Family Job 
• Religious 
• School Rank 
• Field of Study 
• Faculty 
• English Skill 
• Policy Priority 
• Area Priority 
• GPA học kỳ trước 
Dự đoán: 
• GPA học kỳ tiếp 
theo 
2.4. Đánh giá mô hình (Evaluation) 
Sau khi mô hình hóa, việc đánh giá độ tin cậy của các mô hình sẽ được thực hiện, gồm cả 
thao tác điều chỉnh giá trị của các thuộc tính, thay đổi các tham số, kiểm tra mô hình sao 
cho đạt kết quả chính xác nhất. Bảng 4 trình bày kết quả đánh giá mô hình trên cây quyết 
định và mạng Bayes, sử dụng phương pháp kiểm tra chéo 10 đường (10–folds cross 
validation). 
Bảng 4. Độ chính xác của các mô hình dự đoán 
Các lớp của thuộc tính cần dự đoán (GPA 
học kỳ 5) Kỹ thuật Độ chính xác 
4 classes: {Fail, Fair, Good, Very Good} 
Cây quyết định 66.69% 
Mạng Bayes 61.32% 
3 classes: {Fail, Good, Very Good} 
Cây quyết định 84.18% 
Mạng Bayes 78.57% 
2 classes: {Fail, Pass} 
Cây quyết định 92.86% 
Mạng Bayes 89.75% 
Ở đây, nhóm tác giả đã chia thuộc tính cần dự đoán thành 3 tập khác nhau : Dự đoán cho 
2 lớp {Fail, Pass} nhằm để xác định 1 sinh viên có thuộc diện cảnh báo hay không, Fail 
tương ứng với điểm GPA < 1.0 theo thang điểm 4 và Pass là ngược lại. Tương tự, để mở 
rộng đối tượng dự đoán nhằm xác định các sinh viên khá giỏi, nhóm tác giả đã chia dữ 
liệu thêm 2 tập khác là 3 lớp và 4 lớp như trong bảng. Do số lượng sinh viên xuất xắc là 
rất ít nên được gom chung với nhóm giỏi. 
Với kết quả dự đoán trên, cây quyết định đã cho độ chính xác cao hơn mạng Bayes và đạt 
độ chính xác khá cao, ở mức 92.86%. 
Bảng 5 và Bảng 6 trình bày kết quả chi tiết của ma trận nhầm lẫn (confusion matrix) trên 
kết quả dự đoán 4 lớp và 2 lớp. Từ kết quả này ta thấy trong trường hợp dự đoán 2 lớp, 
do dữ liệu mất cân bằng nên việc đoán nhầm từ rớt thành đạt xảy ra khá nhiều. Để khắc 
phụ trường hợp này, người ta phải cần đến các kỹ thuật xử lý dữ liệu mất cân bằng, như 
trình bày trong các nghiên cứu trước đây của cùng nhóm tác giả [14][21][24]. 
Bảng 5. Confusion matrix trên kết quả dự đoán 4 lớp 
Actual Class 
Predicted Class 
Fail Fair Good Very Good 
Fail 534 890 134 7 
Fair 360 3499 1888 12 
Good 30 1519 7701 515 
Very Good 1 15 1135 1290 
% Hit 34 % 61 % 79 % 53 % 
Bảng 6. Confusion matrix trên kết quả dự đoán 2 lớp 
Hình 2 biểu diễn phân tích AUC khi sử dụng cây quyết định cho dự đóan 4 lớp. Giá trị 
của AUC=1 thì mô hình được xem là lý tưởng, tuy nhiên rất khó để đạt giá trị đó. Khi 
AUC>0.8 mô hình đã được xem là rất tốt. Kết quả của nghiên cứu này AUC đạt 0.877. 
Actual Class 
Predicted Class 
Fail Pass 
Fail 471 1094 
Pass 300 17665 
% Hit 30 % 98 % 
Hình 2. Kết quả phân tích AUC 
Khi dự đoán các giá trị kiểu số (bài toán hồi quy), để đánh giá mô hình chúng ta sử dụng 
phép đo là lỗi (error) thay vì độ chính xác hay AUC. Có nhiều phương pháp đo lỗi cho 
đánh giá, nhưng trong nghiên cứu này nhóm tác giả sử dụng hệ số tương quan 
(correlation coefficient) và độ sai lệch trung bình tuyệt đối (Mean Absolute Error) để 
đánh giá mô hình. Hệ số correlation coefficient càng cao thì mô hình càng chính xác. Kết 
quả cho thấy hệ số tương quan đạt 0.833 trong khi MAE đạt 0.688. Như vậy, độ sai số 
khi dự đoán trung bình là ±0.688 (thang điểm 10). Kết quả minh họa cho việc dự đoán 
như trình bày trong Hình 4. 
2.5. Triển khai (Deployment) 
Hình sau mô tả cấu trúc tổng quát của hệ thống hỗ trợ dự đoán kết quả học tập trên nền 
web. Công nghệ được sử dụng là JSP hoặc Servlet với sự hỗ trợ của thư viện Weka. 
Hình 3. Mô hình tổng quan cho hệ thống 
Hình 4. Giao diện minh họa hệ thống dự đoán kết quả học tập 
Nếu chỉ xác định một sinh viên nào đó là thuộc diện cảnh báo (fail) hay không (pass) để 
có kế hoạch phù hợp giúp hạn chế vấn đề cảnh báo học vụ và buộc thôi học thì các kỹ 
thuật đã trình bày cho kết quả chính xác khá tốt (92.86% trong trường hợp sử dụng cây 
quyết định). Tuy nhiên kết quả này chưa thật sự thuyết phục do mô hình dự đoán xem các 
sinh viên là như nhau, tức không cá nhân hóa cho từng sinh viên. Thực tế cho thấy năng 
lực của mỗi người học là khác nhau nên không thể đem một mô hình chung gồm cả sinh 
viên học giỏi để dự đoán kết quả cho những sinh viên học yếu [23], vì thế nhóm tác giả 
đã đưa ra hướng khắc phục bằng cách sử dụng  ... tiềm ẩn (latent factor 
models). Phương pháp này phân rã ma trận X thành hai ma trận con sao cho có thể xây 
dựng lại ma trận X từ hai ma trận con này. BMF là một cải tiến từ giải thuật Standard 
Matrix Factorization [6] kết hợp với các giá trị lệch (bias) được minh họa như trong Hình 
8. Trong đó dòng là danh sách sinh viên và cột là danh sách môn học, mỗi ô trong ma 
trận là điểm của sinh viên học môn học tương ứng. Nếu sinh viên đã học thì điểm số sẽ 
được điền vào ô trong ma trận. Nếu sinh viên chưa học, ô trong ma trận được biểu diễn 
bằng dấu chấm hỏi “?”. 
Hình 8: Ví dụ minh họa BMF 
Mục đích của BMF là phân rã X thành 2 ma trận nhỏ hơn là W và H sao cho ta có thể xây 
dựng lại X từ 2 ma trận này. 
TWHX ≈ 
Với K là số nhân tố tìm ẩn (K<<|S|, K << |I|). 
Quá trình phân rã được thực hiện bằng phương pháp tối ưu hóa hàm mục tiêu bằng kỹ 
thuật stochastic gradient descent. Hàm mục tiêu của BMF được biểu diễn như sau (bạn 
đọc có quan tâm xin xem chi tiết trong nghiên cứu của (Nguyễn Thái Nghe, 2013b [14]): 
Trong đó, µ là giá trị trung bình toàn cục, là năng lực trung bình của tất cả các sinh viên 
(s) trên tất cả các môn học (i) trong tập dữ liệu huấn luyện (p là kết quả học tập của s trên 
môn học i) 
Giá trị bs là độ lệch của sinh viên (là giá trị lệch trung bình của năng lực một sinh viên so 
với giá trị trung bình toàn cục) 
Giá trị bi là độ lệch của môn học (là giá trị lệch trung bình của yêu cầu môn học so với 
giá trị trung bình toàn cục) 
Giả sử sau quá trình tối ưu, ta có được W và H, khi đó kết quả của sinh viên s cho môn 
học i được dự đoán qua công thức 
Thông qua công thức trên, ta tiến hành dự đoán tất cả điểm số của tất cả sinh viên cho 
những môn học là môn tự chọn mà sinh viên chưa có điểm môn học đó, lưu lại vào cơ sở 
dữ liệu cho việc gợi ý. Với mỗi sinh viên, hệ thống sẽ kiểm tra các ràng buộc trong môn 
học tự chọn và kế hoạch học tập, sau đó tiến hành gợi ý những môn có số điểm số dự 
đoán cao nhất (hình bàn tay) trong nhóm tự chọn như minh họa trong Hình 9. 
3.3. Đánh giá kết quả 
3.3.1. Độ đo dùng để đánh giá 
Có nhiều phương pháp có thể dùng để đánh giá hiệu quả của giải thuật gợi ý tùy vào từng 
dạng bài toán. Do đó, khi thực hiện đánh giải thuật chúng ta cần chọn phương pháp phù 
hợp. 
Bài toán dự đoán kết quả học tập của sinh viên thuộc dạng dự đoán xếp hạng từ đánh giá 
tường minh (rating prediction), nên có hai độ đo thường được sử dụng nhất là: Root 
Mean Squared Error (RMSE) và Mean Absolute Error (MAE) được biểu diễn như dưới 
đây 
( )∑
∈
−=
testDpi,s,
2
sisitest pˆp|D|
1RMSE
( )∑
∈
−=
testDpi,s,
sisitest pˆp|D|
1MAE
Phương pháp RMSE sẽ thích hợp với sai số nhỏ và MAE sẽ thích hợp với sai số lớn hơn. 
Hơn nữa, các giải thưởng lớn trong lĩnh vực hệ thống gợi ý đều dùng RMSE để đánh giá, 
như Netflix Prize, KDD Cup 2010,.. Từ những nhận xét trên, nhóm tác giả đã chọn 
phương pháp RMSE cho đánh giá hiệu quả của giải thuật BMF trong bài toán dự đoán 
kết quả học tập của sinh viên. 
Hình 9. Giao diện hỗ trợ lập kế hoạch học tập có gợi ý môn học 
3.3.2. Dữ liệu 
Tập dữ liệu dùng cho đánh giá hệ thống được thu thập trong giai đoạn 10 năm từ năm 
1994 đến năm 2004 của sinh viên ngành Tin học thuộc khoa CNTT&TT trường Đại học 
Cần Thơ. Tập dữ liệu bao gồm 4017 sinh viên (4017 user) và 353 môn học (353 item) 
của 3 ngành học và gồm 279536 điểm chi tiết (279536 ratings). Nghi thức kiểm tra hold-
out lấy ngẫu nhiên 2/3 tập dữ liệu để học và 1/3 còn lại để kiểm tra. 
3.3.3. Kết quả dự đoán 
Sau khi huấn luyện tập dữ liệu điểm sinh viên như trình bày trên, kết quả độ lỗi RMSE 
thu được như trong Hình 10. Ở đó Global Average, Student Average, và Item Average là 
ba phương pháp nền (baseline) [14], còn Matrix Factorization là giải thuật chuẩn không 
có các thành phần bias. 
Từ biểu đồ so sánh cho thấy áp dụng giải thuật BMF vào bài toán dự đoán kết quả học 
tập của sinh viên đạt độ lỗi RMSE thấp hơn so với các giải thuật khác. 
Hình 10. Biểu đồ so sánh độ lỗi RMSE giữa các giải thuật 
4. Các nghiên cứu liên quan 
Khai phá dữ liệu đã được ứng dụng cho nhiều mục đích khác nhau trong giáo dục đào tạo 
và hiện đang được các nhà nghiên cứu quan tâm. Hàng năm, hội thảo chuyên về khai phá 
dữ liệu giáo dục (www.educationaldatamining.org) được tổ chức cũng như tạp chí 
chuyên về khai phá dữ liệu giáo dục (www.educationaldatamining.org/JEDM/), mà ở đó 
ta có thể tìm thấy rất nhiều bài viết chuyên sâu. 
Romero et. al. cũng đã tóm tắt các công trình nghiên cứu liên quan trong lĩnh vực này 
trong [28]. Delavari [3] đã trình bày một mô hình trong đó có nhiều câu hỏi nghiên cứu ở 
các lĩnh vực khác nhau và các kỹ thuật khai phá dữ liệu tương ứng với từng loại câu hỏi 
khi áp dụng trong giáo dục đào tạo. Chẳng hạn, [9] đã trình bày các vấn đề như dự đoán 
năng lực của sinh viên, phân cụm những sinh viên có đặc điểm giống nhau, mối quan hệ 
giữa từng loại sinh viên với các môn học, Luan [7] cũng đã trình bày một nghiên cứu 
trong việc phân cụm các sinh viên có các đặc điểm giống nhau (“self starters” và “high 
interaction”). 
Bên cạnh đó, việc phân tích bằng nhiều kỹ thuật khai phá dữ liệu để dự đoán kết quả học 
tập của sinh viên cũng được nghiên cứu và thực hiện [25]. Tuy nhiên những hướng tiếp 
cận này thường áp dụng cho việc đánh giá năng lực học tập cho học sinh, sinh viên. Sau 
khi đánh giá thì những dự đoán này mang tính chất là quy luật chung nhất, chúng không 
dự đoán cho từng sinh viên cụ thể. 
Một số tiếp cận trong hệ thống gợi ý đã được đề xuất để giải quyết vấn đề dự đoán năng 
lực cho từng sinh viên cụ thể đã được đưa ra: Lọc cộng tác, KNN, Matrix Factorization, 
để dự đoán năng lực học tập của sinh viên (Toscher and Jahrer, 2010; Koren et al., 2009; 
1.240	
  
1.197	
  
1.032	
  
1.013	
  
0.913	
  
0.90	
  
0.95	
  
1.00	
  
1.05	
  
1.10	
  
1.15	
  
1.20	
  
1.25	
  
1.30	
   Global	
  Average	
  
Student	
  Average	
  
Item	
  Average	
  
Matrix	
  FactorizaBon	
  
Bias	
  Matrix	
  FactorizaBon	
  
Nguyen Thai-Nghe et al., 2011). Tuy vậy, những nghiên cứu này đa phần mới chỉ dừng 
lại ở mức kiểm tra độ chính xác của giải thuật và chưa được ứng dụng để giải quyết vấn 
đề thực tế. 
5. Kết luận 
Dự đoán kết quả học tập của sinh viên một các chính xác là rất hữu ích trong nhiều ngữ 
cảnh khác nhau ở các trường đào tạo đại học và sau đại học. Chẳng hạn, xác định các ứng 
viên xuất sắc để tham gia các đội tuyển tin học, cấp học bổng nhằm khuyến khích họ nỗ 
lực hơn nữa trong học tập, hoặc việc xác định các sinh viên có năng lực yếu kém để có 
những biện pháp thích hợp nhằm hỗ trợ họ học tập tốt hơn. 
Bài viết này đã giới thiệu một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập kế 
hoạch học tập sử dụng các phương pháp trong khai phá dữ liệu. Trong đó, nhóm nghiên 
cứu thứ nhất liên quan đến việc sử dụng các giải thuật không cá nhân hóa như mạng 
Bayes và cây quyết định. Nhóm nghiên cứu thứ hai liên quan đến việc sử dụng giải thuật 
cá nhân hóa như Biased Matrix Factorization trong dự đoán kết quả học tập cho từng cá 
nhân sinh viên, từ đó hỗ trợ lựa chọn môn học phù hợp với năng lực của họ. Thực nghiệm 
từ các nghiên cứu này đã cho thấy sử dụng phương pháp máy học trong dự đoán kết quả 
học tập của sinh viên là khả thi và hoàn toàn có thể triển khai trong thực tế. 
Kết hợp cả thông tin nhân khẩu học (demographic information) và thông tin tương tác 
(collaborative information) giữa sinh viên và môn học hay việc thu thập thêm những 
thông tin khác (như số giờ lướt web/mạng xã hội hàng ngày, tình trạng kinh tế gia đình,..) 
có thể sẽ làm tăng thêm độ chính xác của mô hình dự đoán. Những công việc này sẽ được 
thực hiện trong tương lai. 
Tài liệu tham khảo 
[1] Bekele, R. and Menzel, W. 2005. A Bayesian approach to predict performance of a student 
(BAPPS): A case with Ethiopian students. Proceedings of the International Conference on 
Artificial Intelligence and Applications (AIA-2005), Vienna, Austria. 
[2] Bobadilla J., Ortega F., Hernando A., Gutiérrez H. 2013. Recommender systems survey. 
Knowledge-Based Systems. 46 (2013) 109–132. Elsevier. 
[3] Delavari N. & Beikzadeh M. R & Shirazi M. R. A. 2004. A New Model for Using Data 
Mining in Higher Educational System. Proceedings of 5th International Conference on 
Information Technology Based Higher Education and Training (ITHET), Istanbul, Turkey 
[4] Huỳnh Lý Thanh Nhàn, Nguyễn Thái Nghe. 2013a. Hệ thống dự đoán kết quả học tập và gợi 
ý lựa chọn môn học. Kỷ yếu hội thảo quốc gia lần thứ XVI: Một số vấn đề chọc lọc của 
CNTT&TT (@2013), trang 110-118. Nhà xuất bản Khoa học kỹ thuật. ISBN: 987-604-67-
0251-1 
[5] Huỳnh Lý Thanh Nhàn và Nguyễn Thái Nghe. 2013b. Hệ thống dự đoán kết quả học tập của 
sinh viên sử dụng thư viện hệ thống gợi ý mã nguồn mở MYMEDIALITE. Kỷ yếu Hội thảo 
toàn quốc về CNTT năm 2013. Trang 192-201. NXB Đại học Cần Thơ. ISBN: 978-604-919-
012-4. 
[6] Koren, Y., Bell, R., & Volinsky, C. 2009. Matrix factorization techniques for recommender 
systems. IEEE Computer Society Press, 42(8), 30-37. 
[7] Luan, J., Zhao, C.-M., and Hayek, J. 2004. Exploring a new frontier in higher education 
research: A case study analysis of using data mining techniques to create NSSE institutional 
typology. The California Association for Institutional Research, Anaheim, California. 
[8] Manouselis, N., Drachsler, H., Vuorikari, R., Hummel, H., & Koper, R. 2010. Recommender 
systems in technology enhanced learning. In P. B. Kantor, F. Ricci, L. Rokach, & B. Shapira 
(Eds.), 1st Recommender Systems Handbook, (pp. 1-29). Berlin, Germany. Springer. 
[9] Minaei-Bidgoli, B., Kashy, D. A., Kortemeyer, G., and Punch, W. F. 2003. Predicting 
student performance: an application of data mining methods with an educational web-based 
system. Proceedings of 33rd Annual Conference on Frontiers in Education (FIE 2003). 
[10] Nguyễn Chí Ngôn và Nguyễn Thái Nghe. 2010. Hệ chuyên gia hổ trợ sinh viên lập kế 
hoạch học tập (dựa trên phương pháp khai phá dữ liệu - data mining). Đề tài NCKH cấp 
trường. Đại học Cần Thơ. 
[11] Nguyen Thai-Nghe, Lars Schmidt-Thieme. 2015a. Factorization Forecasting Approach 
for User Modeling. Journal of Computer Science and Cybernetics. 133-148. Vol 31, No 2. 
ISSN: 1813-9663. DOI: 10.15625/1813-9663/31/2/5860 
[12] Nguyen Thai-Nghe and Lars Schmidt-Thieme. 2015b. Multi-Relational Factorization 
Models for Student Modeling in Intelligent Tutoring Systems. In proceedings of the 2015 
Seventh International Conference on Knowledge and Systems Engineering (KSE 2015). 
IEEE Xplore. (to appear) 
[13] Nguyễn Thái Nghe. 2013a. Hệ thống dự báo năng lực học tập và hỗ trợ sinh viên lựa 
chọn môn học. Đề tài NCKH cấp trường. Đại học Cần Thơ. 
[14] Nguyen Thai-Nghe. 2013b. An introduction to factorization technique for building 
recommendation systems. Vol. 6/2013, pp. 44-53, Journal of Science - University of Da Lat, 
ISSN 0866-787X. 
[15] Nguyen Thai-Nghe, Zeno Gantner, Lars Schmidt-Thieme. 2013. An Evaluation Measure 
for Learning from Imbalanced Data Based on Asymmetric Beta Distribution. Book Chapter 
in Classification and Data Mining: Studies in Classification, Data Analysis, and Knowledge 
Organization, pp. 121-129. Print ISBN: 978-3-642-28893-7. Series ISSN: 1431-
8814. Springer. 
[16] Nguyễn Thái Nghe, Huỳnh Xuân Hiệp. 2012. Ứng dụng kỹ thuật phân rã ma trận đa 
quan hệ trong xây dựng hệ trợ giảng thông minh, Kỷ yếu Hội thảo quốc gia lần thứ XV: Một 
số vấn đề chọn lọc của CNTT&TT (@2012), trang 470-477. Nhà xuất bản Khoa học và Kỹ 
thuật. ISBN: 893-5048-931578 
[17] Nguyen Thai-Nghe, Lucas Drumond, Tomáš Horváth, Lars Schmidt-Thieme. 2012a. 
Using Factorization Machines for Student Modeling, in proceedings of FactMod 2012 WS at 
the 20th Conference on User Modeling, Adaptation, and Personalization (UMAP 2012). Vol. 
872, CEUR-WS, ISSN: 1613-0073. 
[18] Nguyen Thai-Nghe, Lucas Drumond, Tomáš Horváth, Artus Krohn-
Grimberghe, Alexandros Nanopoulos, Lars Schmidt-Thieme. 2012b. Factorization 
Techniques for Predicting Student Performance. Book chapter in Educational Recommender 
Systems and Technologies: Practices and Challenges (ERSAT 2012). Santos, O. C. and 
Boticario, J. G. (Eds.). pp. 129-153. ISBN13: 9781613504895, ISBN10: 1613504896, IGI 
Global Publisher. 
[19] Nguyen Thai-Nghe, Tomáš Horváth, Lars Schmidt-Thieme. 2011. Factorization Models 
for Forecasting Student Performance, in Pechenizkiy, M., Calders, T., Conati, C., Ventura, 
S., Romero, C., and Stamper, J. (Eds.) Proceedings of the 4th International Conference on 
Educational Data Mining (EDM 2011). ISBN 978-90-386-2537-9 
[20] Nguyen Thai-Nghe, Lucas Drumond, Artus Krohn-Grimberghe, Lars Schmidt-Thieme 
(2010): Recommender System for Predicting Student Performance. Volume 1, Issue 2, 2010, 
Pages 2811-2819, Elsevier Computer Science Procedia. ISSN: 1877-0509 
[21] Nguyen Thai-Nghe, Andre Busche, and Lars Schmidt-Thieme. 2009. Improving 
Academic Performance Prediction by Dealing with Class Imbalance, in Proceedings of the 
9th IEEE International Conference on Intelligent Systems Design and Applications (ISDA 
2009), pp. 878-883. ISBN: 978-0-7695-3872-3. IEEE Computer Society. 
[22] Nguyen Thai-Nghe, Paul Janecek, and Peter Haddawy. 2007. A comparative analysis of 
techniques for predicting academic performance, in Proceedings of the 37th ASEE/IEEE 
Frontiers in Education (FIE 2007), pp. T2G-7-T2G-12. Print ISBN: 978-1-4244-1083-5. 
IEEE publisher 
[23] Nguyen Thai-Nghe, Tomáš Horváth, and Lars Schmidt-Thieme. 2011. Personalized 
Forecasting Student Performance, in Proceedings of the 11th IEEE International Conference 
on Advanced Learning Technologies (ICALT 2011). pp. 412 - 414. ISSN: 2161-3761. E-
ISBN: 978-0-7695-4346-8. Print ISBN: 978-1-61284-209-7. IEEE Xplore. 
[24] Nguyen Thai-Nghe, Zeno Gantner, and Lars Schmidt-Thieme. 2010. Cost-Sensitive 
Learning Methods for Imbalanced Data, in proceedings of IEEE International Joint 
Conference on Neural Networks (IJCNN 2010), ISSN: 1098-7576. Print ISBN: 978-1-4244-
6916-1. IEEE publisher, Student Travel Grant Award 
[25] Nguyễn Thị Thanh Thủy, Nguyễn Trần Quốc Vinh,. Ứng dụng khai phá dữ liệu xây dựng 
công cụ dự đoán kết quả học tập của sinh viên. Hội nghị sinh viên nghiên cứu khoa học lần 
thứ 8, Đại học Đà Nẵng, 2012. 
[26] Ricci, F., Rokach, L., Shapira, B. & Kantor, P.B., eds. 2011. Recommender Systems 
Handbook. Springer. 
[27] Romero, C., Ventura, S., Espejo, P.G., Hervas, C. 2008. Data Mining Algorithms to 
Classify Students. Proceedings of the First International Conference on Educational Data 
Mining, 8-17. 
[28] Romero, Cristobal, and Sebastian Ventura. 2013. Data mining in education. Wiley 
Interdisciplinary Reviews: Data Mining and Knowledge Discovery 3.1 (2013): 12-27. 
[29] Su, X. & Khoshgoftaar, T.M. 2009. A survey of collaborative filtering techniques. 
Advances in Artificial Intelligence, 2009, 4:1-4:19. 
[30] Toscher A. and Jahrer M. 2010. Collaborative filtering applied to educational data 
mining. Proceedings of the KDD Cup 2010 Workshop on Improving Cognitive Models with 
Educational Data Mining, Washington, DC, USA, 2010. 
View publication stats

File đính kèm:

  • pdfung_dung_cac_ky_thuat_trong_khai_pha_du_lieu_ho_tro_sinh_vie.pdf