Trích rút thông tin tự động từ văn bản Tiếng Việt
Bài báo đề xuất các hướng tiếp cận học bán giám sát trong việc xây dụng hệ thống trích rút thông tin tự động từ văn bản tiếng Việt. Với trích rút thực thể, mở rộng phương pháp của Liao [7] bằng cách sử dụng các luật đồng tham chiếu về tên và các luật nhóm 2 để tìm các thực thể mới. Thử nghiệm cho thấy, hệ thống đề xuất có độ chính xác cao hơn hệ thống của Liao [7]. Với trích rút mối quan hệ cải tiến hàm nhân mức nông SLK của Giuliano [6] bằng cách bổ sung thêm các đặc trưng cho việc biểu diễn câu bao gồm từ loại, loại thực thể, từ điển động từ và thay đổi kích cỡ cửa số của hàm nhân. Kết quả thử nghiệm cho thấy phương pháp học có giám sát sử dụng SLK cải tiến tốt hơn phương pháp học có giám sát sử dụng SLK của Giuliano [6]. Và khi áp dụng phương pháp học bán giám sát, hệ thống thu được kết quả tốt hơn học có giám sát.
File đính kèm:
- trich_rut_thong_tin_tu_dong_tu_van_ban_tieng_viet.pdf