Sự truyền tải thông điệp của dữ liệu phi cấu trúc trong dự báo kiệt quệ tài chính của các doanh nghiệp Việt Nam
Nghiên cứu này sử dụng nguồn dữ liệu văn bản trên Báo cáo thường niên và nguồn tin tức trực tuyến của các doanh nghiệp VN, một cách tiếp cận mới dựa trên nguồn dữ liệu phi cấu trúc, vào việc dự báo kiệt
quệ tài chính. Thông tin phi cấu trúc được sử dụng riêng biệt hoặc kết hợp với
các yếu tố dự báo khác dựa trên dữ liệu cấu trúc truyền thống, hướng tới mục tiêu
cải thiện khả năng dự báo của các mô hình. Kết quả nghiên cứu cho thấy xét một
cách độc lập thông tin phi cấu trúc có khả năng truyền tải nhiều thông điệp có ý
nghĩa trong dự báo tình trạng kiệt quệ tài chính của các công ty niêm yết tại VN,
đồng thời việc kết hợp giữa dữ liệu này và dữ liệu cấu trúc đại diện bởi các nhân
tố truyền thống (tỷ số tài chính, đặc điểm quản trị công ty, chỉ số vĩ mô) giúp cải
thiện độ chính xác của dự báo.
Tóm tắt nội dung tài liệu: Sự truyền tải thông điệp của dữ liệu phi cấu trúc trong dự báo kiệt quệ tài chính của các doanh nghiệp Việt Nam
Số 19 (29) - Tháng 11-12/2014 PHÁT TRIỂN & HỘI NHẬP Nghiên Cứu & Trao Đổi 19 1. Giới thiệu Lĩnh vực nghiên cứu kinh tế tài chính thông thường khai thác trên nguồn thông tin dạng cấu trúc như số liệu kế toán, dòng tiền, giá cổ phiếu Trong thời đại bùng nổ công nghệ thông tin, nhiều lĩnh vực trên thế giới đã và đang tận dụng giá trị thông điệp của nguồn dữ liệu phi cấu trúc khổng lồ mà lĩnh vực kinh tế tài chính cũng không là ngoại lệ. Theo Turner (2013, tr.1), “Thông tin phi cấu trúc, một cách thừa nhận, truyền đạt nhiều tri thức ý nghĩa cho con ngườikhông còn gói gọn trong lĩnh vực công nghệ thông tin mà còn lan rộng trong lĩnh vực tài chính ngân hàng. Thị trường tài chính ngân hàng cần tận dụng thông tin phi cấu trúc như một cầu nối truyền đạt tiến trình, phân tích và tổ chức” Các mảng tin tức trực tuyến, Báo cáo thường niên hoặc các văn bản phân tích cổ phiếu của các chuyên gia là các nguồn dữ liệu phi cấu trúc dạng văn bản phổ biến. Vấn đề phân tích mức độ truyền tải thông điệp có ý nghĩa của dữ liệu phi cấu trúc trong nghiên cứu và dự báo tài chính đang dần trở thành một xu hướng nổi bật trong thời điểm hiện nay và Li (2011, tr. 19) đã đề xuất việc sử dụng thông tin phi cấu trúc trong việc dự báo KQTC như sau: “Đã tồn tại một lượng lớn các nghiên cứu xây dựng mô hình dự báo kiệt quệ tài chính (KQTC) sử dụng các dữ liệu kế toán cũng như dữ liệu thị trường. Dữ liệu dạng văn bản từ báo cáo tài chính (BCTC) và các nguồn khác, với khả năng hàm chứa các tín hiệu dự báo cho tình trạng KQTC của công ty, là một đề tài hết sức thú vị và mang nhiều ý nghĩa trong việc phát triển các mô hình dự báo truyền thống trước đây. Nhiều bằng chứng cho thấy các dữ liệu dạng văn bản truyền tải nhiều thông điệp trong việc dự báo tình hình hoạt động tương lai của công ty, nhiều khả năng chúng sẽ mang các thông điệp ý nghĩa khác trong việc dự báo KQTC”. Với hướng đi này, các nhà nghiên cứu kinh tế đã bước đầu đề cao tầm quan trọng của dữ liệu phi cấu trúc so với dữ liệu cấu trúc trong việc xây dựng mô hình cảnh báo KQTC (Shirata và Sakagami, 2009; Cecchini, 2010; Lu, Shen và Wei, 2013). Ở VN, những nghiên cứu xây dựng mô hình dự báo KQTC cho tới nay hầu hết chỉ tập trung vào mảng dữ liệu cấu trúc (Lê Đạt Sự truyền tải thông điệp của dữ liệu phi cấu trúc trong dự báo kiệt quệ tài chính của các doanh nghiệp Việt Nam TS. TRẦN THị Hải Lý NGUYỄN THị HồNG TRâN & NGUYỄN NGỌC MY Trường Đại học Kinh tế TP.HCM Nghiên cứu này sử dụng nguồn dữ liệu văn bản trên Báo cáo thường niên và nguồn tin tức trực tuyến của các doanh nghiệp VN, một cách tiếp cận mới dựa trên nguồn dữ liệu phi cấu trúc, vào việc dự báo kiệt quệ tài chính. Thông tin phi cấu trúc được sử dụng riêng biệt hoặc kết hợp với các yếu tố dự báo khác dựa trên dữ liệu cấu trúc truyền thống, hướng tới mục tiêu cải thiện khả năng dự báo của các mô hình. Kết quả nghiên cứu cho thấy xét một cách độc lập thông tin phi cấu trúc có khả năng truyền tải nhiều thông điệp có ý nghĩa trong dự báo tình trạng kiệt quệ tài chính của các công ty niêm yết tại VN, đồng thời việc kết hợp giữa dữ liệu này và dữ liệu cấu trúc đại diện bởi các nhân tố truyền thống (tỷ số tài chính, đặc điểm quản trị công ty, chỉ số vĩ mô) giúp cải thiện độ chính xác của dự báo. Từ khóa: Dữ liệu phi cấu trúc, dữ liệu cấu trúc, kiệt quệ tài chính. PHÁT TRIỂN & HỘI NHẬP Số 19 (29) - Tháng 11-12/2014 Nghiên Cứu & Trao Đổi 20 Chí và Lê Tuấn Anh, 2012; Hay Sinh, 2013, Nguyễn Trà Ngọc Vy và Nguyễn Văn Công, 2013). Cùng với sự gia tăng vượt trội của số lượng thông tin phi cấu trúc nói chung, việc xây dựng mô hình dự báo KQTC không chỉ đơn thuần dựa trên nguồn dữ liệu cấu trúc truyền thống mà cần thiết phải mở rộng sang cả nguồn dữ liệu phi cấu trúc. Nghiên cứu này được thực hiện trong bối cảnh nền kinh tế và điều kiện kinh doanh tại VN còn nhiều khó khăn, tình trạng KQTC trong các doanh nghiệp VN đang là vấn đề đáng quan ngại đối với các nhà đầu tư cũng như các nhà hoạch định chính sách. Gánh chịu tàn dư của khủng hoảng tài chính toàn cầu 2008, toàn cảnh kinh tế VN nói chung cũng như khu vực doanh nghiệp nói riêng rơi vào trạng thái khó khăn và dấu hiệu phục hồi vẫn chưa rõ nét. Theo đánh giá của Ủy ban Giám sát Tài chính Quốc gia (2013) cho giai đoạn 2008-2012, tồn tại nhiều dấu hiệu cho thấy tình trạng KQTC vẫn đang đe dọa khu vực doanh nghiệp phi tài chính như: Tốc độ tăng trưởng tổng tài sản và doanh thu hằng năm giảm sút, ROA và ROE ở mức thấp, hàng tồn kho cao, nợ đọng lớn và kéo dài, chỉ số đòn bẩy cao cùng với quản trị công ty đại chúng hạn chế. Nghiên cứu này được phát triển theo hướng tiếp cận mới trên nguồn dữ liệu phi cấu trúc, hơn nữa là kết hợp giữa hai nguồn dữ liệu cấu trúc và phi cấu trúc, do vậy các mô hình dự báo KQTC được kì vọng sẽ mang lại những kết quả dự báo có giá trị, không chỉ giúp cho việc cảnh báo sớm tình trạng KQTC mà còn khởi đầu cho những nghiên cứu sử dụng thông tin phi cấu trúc ở nhiều lĩnh vực phân tích và dự báo tài chính khác trong tương lai tại thị trường VN. 2. Phân tích thông điệp văn bản trong nghiên cứu KQTC trên thế giới Theo Petersen (2004), dữ liệu được chia thành dữ liệu cấu trúc (dữ liệu cứng) và dữ liệu phi cấu trúc (dữ liệu mềm). Dữ liệu có cấu trúc, thường là số liệu kế toán, giá cổ phiếu, dòng tiền, chỉ số thị trường, là dạng thông tin có khả năng lưu trữ trong các cơ sở dữ liệu quan hệ (Relational Database), trong đó các thực thể và thuộc tính đã được định nghĩa sẵn, thường được thu thập trên Báo cáo tài chính (BCTC). Ngược lại với dữ liệu cấu trúc, dữ liệu phi cấu trúc được định nghĩa là dạng dữ liệu không có cấu trúc định nghĩa sẵn và không thể biểu diễn dưới dạng bảng số liệu quan hệ. Phổ biến nhất là các dạng dữ liệu văn bản dạng chữ (Text), ngoài ra còn có các dạng khác như tập tin video, tập tin ảnh, tập tin âm thanh. Theo Healy và Palepu (2001), thông tin văn bản phi cấu trúc của doanh nghiệp được chia thành hai nguồn thông tin nội bộ và đại chúng. Nguồn thông tin nội bộ của doanh nghiệp được phân định thành các công bố phi tài chính bằng văn bản dạng bắt buộc theo quy định hoặc tự nguyện, hầu hết thuộc Báo cáo thường niên (BCTN). Nguồn thông tin phi cấu trúc bên ngoài doanh nghiệp tồn tại đa dạng hơn, bao gồm các nguồn như tin đồn, các tin vắn công bố về cổ phiếu trên các Sở giao dịch và các diễn đàn cổ phiếu, các phân tích tài chính độc lập, bình luận của các chuyên gia kinh tế, tạp chí tài chính, công bố của bên thứ ba (công ty kiểm toán) hoặc các bên trung gian (ngân hàng), thông tin văn bản về thị trường, khách hàng, nhà cung cấp và đối tác. Với khả năng hàm chứa các thông điệp có giá trị, thông tin phi cấu trúc có thể được sử dụng trong nhiều lĩnh vực nghiên bao gồm cả việc cảnh báo sớm KQTC cũng như các sự kiện tiêu cực khác. Quá trình phát hiện tri thức từ nguồn dữ liệu văn bản này được gọi là Phân tích thông điệp văn bản hoặc Phân tích văn bản (Textual analysis), tương ứng với kĩ thuật khai thác văn bản (Text mining). Trong đó, nhiều tác giả sử dụng quy trình này trên nguồn thông tin phi cấu trúc nội bộ của doanh nghiệp trong xây dựng mô hình dự báo như Shirata và Sakagami (2009) dự báo KQTC theo quá trình phân tích thông tin phi cấu trúc dựa trên Báo cáo thường niên của các doanh nghiệp Nhật Bản ứng dụng kĩ thuật phân tích hình thái học cho bộ ký tự Kanji. Nghiên cứu cũng đưa ra những nhóm từ mới có tính đại diện cao cho nhóm công ty không kiệt quệ như “R&D”, “đầu tư vốn”, “ kinh doanh mới” Cecchini (2010) phát triển phương pháp phân tích nội dung thông điệp dạng tự điển từ nhằm dự báo KQTC trên phần thông tin văn bản trong mục Thảo luận và Phân tích của Ban quản trị thuộc BCTN. Tác giả tìm thấy việc dùng riêng các thông tin phi cấu trúc nhằm dự báo các sự kiện tài chính đạt được những kết quả tích cực (dự báo chính xác 75% cho nhóm công ty kiệt quệ), đồng thời trích lập được nhóm từ khóa đặc trưng cho phần thông tin mềm của nhóm công ty KQTC như “giảm lợi nhuận gộp”, “ảnh hưởng lạm phát”, “lợi ích”, “nỗ lực công ty”. Ngoài ra, Lu, Shen và Wei (2013) sử dụng nguồn thông tin mềm đại Số 19 (29) - Tháng 11-12/2014 PHÁT TRIỂN & HỘI NHẬP Nghiên Cứu & Trao Đổi 21 chúng loại tin tức trực tuyến dạng Hán tự để xây dựng biến thông tin trong mô hình dự báo KQTC và nhận thấy nó có ý nghĩa trong mô hình dự báo KQTC bên cạnh các yếu tố truyền thống khác, cũng như trích lập được danh sách 110 từ khóa đặc trưng cho nhóm KQTC và 129 từ khóa cho nhóm không KQTC. 3. Phương pháp nghiên cứu 3.1. Lựa chọn nguồn dữ liệu phi cấu trúc Nguồn dữ liệu văn bản phi cấu trúc nội bộ được thu thập trong các phần phản ánh các nội dung về kế hoạch, triến lược phát triển hoặc dự báo tương lai của doanh nghiệp trên BCTN. Các phần chi tiết được thu thập bao gồm: l Những thông tin phải công bố theo quy định của Thông tư 52/2012/TT-BTC bao gồm: - Triển vọng và kế hoạch phát triển tương lai thuộc báo cáo của HĐQT - Kế hoạch phát triển trong tương lai thuộc báo cáo của Ban giám đốc. l Những thông tin công bố tự nguyện gồm các phát biểu dự báo tương lai của công ty trong các BCTN được lựa chọn theo tiêu chí của Vu, Tower và Scully (2011) bao gồm: - Dự báo doanh thu, phần diễn giải văn bản định tính. - Dự báo thu nhập, phần diễn giải văn bản định tính. - Thảo luận về các nhân tố bên ngoài ảnh hưởng đến tình trạng hoạt động tương lai của công ty (kinh tế, chính trị và công nghệ). - Thảo luận về các nguồn quỹ và kinh phí của công ty trong tương lai. - Thảo luận về các ảnh hưởng của tỷ giá hối đoái lên các hoạt động kinh doanh của công ty trong tương lai. - Dự báo dòng tiền, phần văn bản diễn giải định tính. Nguồn dữ liệu dạng tin tức trực tuyến được thu thập trên các sở giao dịch HOSE và HNX trong mục công bố thông tin của các doanh nghiệp niêm yết giai đoạn 2008 -2013. Việc lựa chọn thông tin trên các sở giao dịch nhằm đảm bảo mức độ công khai, minh bạch và độ tin cậy của thông tin. 3.2. Xây dựng biến đại diện thông tin phi cấu trúc Biến đại diện thông tin phi cấu trúc nội bộ trong BCTN của doanh nghiệp được gọi là TONE và biến đại diện thông tin phi cấu trúc dạng tin tức trực tuyến gọi là NEWS. Các biến thông tin này được xây dựng thông qua quy trình Phân tích thông điệp văn bản do Li (2010) và Lu, Shen và Wei (2013) đề xuất và được tóm lược trong Hình 1. - Xác định tập trọng số Có 20% mẫu dữ liệu ở mỗi dạng thông tin phi cấu trúc được sử dụng cho việc xác định tập trọng số để chuẩn bị cho việc xây dựng biến thông tin trên toàn bộ dữ liệu. Phần dữ liệu huấn luyện này đã được phân loại thủ công thành lớp tài liệu tương ứng với chủ đề phân lớp. D c là phần tài liệu văn bản ứng với lớp thứ c ( ), n là số lớp chủ đề phân lớp văn bản tương ứng. Dữ liệu huấn luyện thông tin phi cấu trúc dạng tin tức trực tuyến sử dụng để dự báo KQTC được phân thành hai lớp chủ đề KQTC và không KQTC. Chủ đề KQTC gồm 500 câu tin tức trực tuyến của nhóm công ty xảy ra KQTC vào năm sau, chủ đề không KQTC gồm 500 câu Kiểm định Tập trọng số Dữ liệu huấn luyện dạng phi cấu trúc 1. Tiền xử lý 2. Biểu diễn văn bản: Tính tần số từ khóa 3. Rút trích đặc trưng 4. Áp dụng thuật toán Naïve Bayes Văn bản từng công ty Văn bản được phân lớp chủ đề Xây dựng biến thông tin TONE/NEWS Hình 1: Tóm lược quy trình xây dựng biến thông tin phi cấu trúc áp dụng phân tích thông điệp văn bản Nguồn: Tóm lược theo Li (2010) và Lu, Shen và Wei (2013). PHÁT TRIỂN & HỘI NHẬP Số 19 (29) - Tháng 11-12/2014 Nghiên Cứu & Trao Đổi 22 tin tức trực tuyến của nhóm công ty khỏe mạnh trong năm sau. Dữ liệu huấn luyện thông tin phi cấu trúc trên BCTN, được phân thành ba lớp chủ đề văn bản là Tích cực, Tiêu cực và Trung tính. Nguồn thông tin huấn luyện gồm 400 câu được phân loại thủ công vào ba lớp chủ đề này dựa theo nghiên cứu của Li (2010). Một câu phản ánh nội dung Tích cực khi nhà lãnh đạo đưa ra những phát biểu lạc quan, tự tin, quả quyết, nhiều khi cả tự kiêu và độc đoán về tình hình công ty tương lai. Ngược lại, một câu phản ánh nội dung Tiêu cực khi nhà lãnh đạo đưa ra các tuyên bố với tính chất bi quan, tự ti, e dè, nhiều lúc lo lắng, tức giận và buồn rầu về tình hình công ty. Các thông tin còn lại được xếp vào nội dung Trung tính. Tiền xử lý: Tin tức dạng thô sơ được trải qua quá trình tiền xử lý (loại bỏ dấu câu, xử lý từ sai chính tả, phân tách câu rõ ràng) nhằm đạt được dạng văn bản thống nhất và toàn vẹn theo yêu cầu của kỹ thuật khai phá văn bản và được lưu trữ trong cơ sở dữ liệu. Biểu diễn văn bản: Tính tần số từ khóa (term frequency). Gọi tf (c,j) là tần số của từ khóa t thứ j thuộc lớp tài liệu thứ c (D c ), được tính bằng số lần xuất hiện của từ khóa t trong tài liệu D c . Trích chọn đặc trưng: Đặc trưng được chọn là các từ khóa có hai từ. Phương pháp kiểm tra Chi bình phương χ2 được sử dụng để giữ lại những từ có khả năng hàm chứa thông điệp và loại bỏ những từ vô nghĩa khỏi tài liệu nhằm nâng cao hiệu suất phân loại văn bản: Trong đó A: tf(c,j) đại diện cho tần số từ khóa t thứ j trong lớp tài liệu D c B: tổng tần số của các từ khóa (không kể từ khóa t) trong lớp tài liệu D c . C: tf(c’, j), đại diện cho tần số từ khóa t thứ j trong các lớp tài liệu còn lại. D: tổng tần số của các từ khóa (không kể từ khóa t) trong các lớp tài liệu còn lại. N: Tổng tần số của từ khóa thứ j trong tất cả các lớp tài liệu. Phương pháp kiểm định χ2 nhằm kiểm tra mối tương quan giữa từ khóa thứ j và lớp tài liệu D c . Nếu giá trị χ2(c,j) cao hơn giá trị tới hạn, khi đó từ khóa j được xếp vào danh sách từ khóa mang tính đại diện cao cho phân lớp D c và ngược lại, từ khóa sẽ không mang tính đại diện cho phân lớp D c . Những từ khóa nào không mang tính đại diện cho một phân lớp nào sẽ bị loại bỏ khỏi tập văn bản. Áp dụng thuật toán Naïve Bayes phân loại văn bản: Phương pháp Naïve Bayes được áp dụng vào quá trình phân loại. Giả định rằng sự xuất hiện của các từ trong văn bản đều độc lập với nhau. Theo định lý Bayes: Theo tính chất độc lập điều kiện: Với : Xác suất thuộc phân lớp i khi biết trước câu X. P(C i ): xác suất phân lớp i. là xác suất thuộc tính thứ k mang giá trị x k khi đã biết câu X thuộc phân lớp i. Như vậy, tập trọng số P(C i ) và được xác định. - Phân lớp văn bản trên thông tin văn bản của từng công ty Việc phân lớp này được áp dụng lần lượt cho từng phần thông tin phi cấu trúc của mỗi công ty trong mẫu. Từ các tập trọng số được xác định ở trên, từng câu văn bản trong phần dữ liệu phi cấu trúc của một công ty sẽ được gán vào lớp chủ đề có xác suất lớn nhất theo công thức: - Tính biến đại diện thông tin q là số câu văn bản thuộc tài liệu của công ty i. Trong đó tone ijq là ... êng lẻ và vai trò kết hợp của thông tin phi cấu trúc và thông tin cấu trúc trong việc dự báo xác suất KQTC, nghiên cứu này thực hiện ba hồi quy logistic sau: - Mô hình 1 (chỉ bao gồm dữ liệu phi cấu trúc) DISTRESS t+1 = α 1 + β 1 TONE t + δ 1 NEWS t + e 1 - Mô hình 2 (chỉ bao gồm dữ liệu cấu trúc) - Mô hình 3 (kết hợp dữ liệu phi cấu trúc và cấu trúc) Trong đó Biến D i1 là biến thứ i trong nhóm biến cấu trúc D 1 đại diện cho các chỉ số tài chính được đề xuất dự báo KQTC. Biến D i2 là biến thứ i trong nhóm biến cấu trúc D 2 đại diện cho Quản trị công ty đại chúng được đề xuất dự báo KQTC. Biến D i3 là biến thứ i trong nhóm biến cấu trúc D 3 đại diện cho các chỉ số vĩ mô thị trường được đề xuất dự báo KQTC. TONE t là biến sắc thái thông điệp đại diện thông tin phi cấu trúc trên nguồn BCTN, kỳ vọng có mối quan hệ âm với tình trạng KQTC của doanh nghiệp trong năm sau, tức thông điệp phi cấu trúc dự báo tương lai trong năm nay càng mang tính tích cực thì khả năng công ty rơi vào tình trạng KQTC sẽ giảm đi. NEWS t là biến đại diện cho tin tức trực tuyến của doanh nghiệp phản ánh các sự kiện đã xảy ra trong năm t, kỳ vọng có mối quan hệ dương với tình trạng KQTC năm sau t +1. Tức thông tin tin tức trực tuyến càng hàm chứa nhiều thông điệp đại diện cho KQTC thì tình trạng KQTC của công ty sẽ tăng. DISTRESS t+1 : tình trạng KQTC của doanh nghiệp vào năm sau t +1 có giá trị bằng 1 nếu công ty rơi vào KQTC vào năm t+1 và có giá trị bằng 0 nếu tình trạng doanh nghiệp là khỏe mạnh vào năm t+1. Mẫu nghiên cứu Mẫu nghiên cứu được thu thập từ danh sách các công ty niêm yết trên hai Sở giao dịch HOSE và HNX trong khoảng thời gian từ năm 2008 đến năm 2013. Tiêu chí lựa chọn các công ty KQTC là các công ty nằm trong danh sách kiểm soát và hủy niêm yết trên hai Sở giao dịch HOSE và HNX. Sau quá trình này, mẫu cuối cùng để sử dụng cho xây dựng mô hình dự báo KQTC bao gồm 199 công ty niêm yết, được phân vào hai nhóm KQTC (60 công ty) và công ty không KQTC 139 công ty 4. Kết quả thực nghiệm 4.1. Trích xuất các từ khóa đặc trưng Bảng 3 trình bày danh sách một số từ khóa đặc trưng cho các chủ đề thông tin phi cấu trúc, danh sách này được trích xuất dựa vào tính đại diện cao nhất của chúng cho một phân lớp chủ đề tương ứng (tức có chỉ số χ2cao nhất và chỉ thuộc duy nhất một phân lớp chủ đề đó, thu được từ kết quả trích chọn đặc trưng trong quy trình xây dựng biến thông tin phi cấu trúc tại thị trường VN. Từ khóa đặc trưng cho chủ đề Tích cực, Tiêu cực và Trung tính trên thông tin BCTN Từ khóa đặc trưng cho chủ đề Tích cực bao gồm 32 từ khóa, các từ thuộc vị trí cao nhất bao gồm: “lợi nhuận”, “doanh thu”, “đạt được”, “duy trì”, “phát triển”. Nhóm từ khóa đặc trưng cho chủ đề Tiêu cực bao gồm 22 từ khóa, các từ thuộc vị trí cao nhất là “rủi ro”, “chi phí”, “bất ổn”, “không tăng”. Nhóm từ trung tính gồm một số từ đại diện Số 19 (29) - Tháng 11-12/2014 PHÁT TRIỂN & HỘI NHẬP Nghiên Cứu & Trao Đổi 25 “khoảng”, “thay đổi”, “ biến đổi”, “ước tính”. Các từ khóa này được tìm thấy có một số từ khóa tương đồng với Tự điển thuật ngữ kinh tế của Loughran và McDonald (2010). Danh sách các từ khóa này có vai trò quan trọng trong việc xây dựng Tự điển từ kinh tế của VN giành cho Phân tích thông điệp phi cấu trúc trong tương lai. Từ khóa đặc trưng cho chủ để KQTC và không KQTC Kết quả thu được 38 từ đặc trưng cho nhóm KQTC và 78 từ đặc trưng cho nhóm không kiệt quệ tài chính. Một số từ có trọng số cao nhất trong nhóm công ty KQTC như “Chi phí”, “Thua lỗ”, “Khó khăn”, “Giảm sàn”, “Lợi nhuận”, “Vi phạm”, “Tồn đọng”, “Giám đốc” và nhóm công ty không kiệt quệ như “Lợi nhuận”, “Doanh thu”, “Đầu tư”, “Kế hoạch”, “Chi phí”, “Hoạt động”, “Cổ tức”. Các từ này đa phần được tìm thấy trên các nhóm tin về Tình hình sản xuất kinh doanh, Trả cổ tức và một số mục khác như Tình hình tuân thủ pháp luật và quy chế, Tình hình thay đổi nhân sự. Một số từ được tìm thấy có mức tương đồng cao với các từ khóa được trích xuất thuộc thông tin phi cấu trúc của các thị trường khác trên thế giới, ví dụ đối với nhóm công ty kiệt quệ tài chính là thua lỗ, chi phí và lợi nhuận (Lu, Shen và Wei, 2013 tại thị trường Đài Loan, Shirata và Sakagami, 2009 tại thị trường Nhật Bản). Một số từ mới được tìm thấy khác biệt tại thị trường VN như “chậm nộp”, “giải trình”. Vì giới hạn trình bày nên chúng tôi chỉ liệt kê danh sách 5 từ khóa tương ứng với từng nhóm chủ đề phân lớp. Chủ đề phân lớp KQTC và không KQTC được trích xuất trên nguồn tin tức trực tuyến. Chủ đề Tích cực, Tiêu cực và Trung tính được trích xuất trên Báo cáo thường niên của doanh nghiệp. Chỉ số Chi bình phương, ứng với mức ý nghĩa P (p-value) < 5% sẽ được chọn làm từ khóa đại diện. Kết quả thu được từ việc trích chọn đặc trưng trong quy trình xây dựng biến thông tin phi cấu trúc. Kết quả hồi quy Mô hình 1 dự báo kiệt quệ tài chính chỉ sử dụng các biến số phi cấu trúc (TONE, NEWS). Dựa trên kết quả từ Bảng 4, tác giả nhận thấy cả hai biến số phi cấu trúc TONE và NEWS đều có ý nghĩa thống kê ở mức 1%. Điều này cho thấy các thông tin phi cấu trúc bên trong hoặc bên ngoài doanh nghiệp đều hàm chứa những thông điệp dự báo giá trị cho khả năng KQTC của công ty. Biến số TONE (-0.502) có mối tương quan âm Chủ đề phân lớp KQTC Không KQTC Từ Chi2 Pvalue Từ Chi2 P value 1 Lợi nhuận 6.038143 0.0141 Lợi nhuận 6.822827 0.0090 2 Chi phí 5.802874 0.0161 Doanh thu 5.709292 0.0332 3 Thua lỗ 5.596149 0.0181 Đầu tư 4.709292 0.0312 4 Khó khăn 5.168505 0.0232 Kế hoạch 4.397105 0.0360 5 Giảm sàn 3.909986 0.0481 Chi phí 4.260868 0.0390 Chủ đề phân lớp Tiêu cực Tích cực Trung tính Từ Chi2 P value Từ Chi2 P value Từ Chi2 P value 1 Chi phí 6.922827 0.0095 Lợi nhuận 6.038143 0.0141 Khoảng chừng 5.411894 0.0203 2 Đối thủ 6.822827 0.0090 Doanh thu 5.709292 0.0332 Thay đổi 4.828067 0.0280 3 Bất lợi 5.411894 0.0203 Phát triển 4.956019 0.0263 Biến đổi 4.397105 0.0360 4 Rủi ro 4.828067 0.0280 Duy trì 4.916468 0.0271 Ước tính 4.217885 0.0423 5 Khắc phục 4.350412 0.0371 Đạt được 3.875353 0.0492 Có thể 4.217885 0.0422 Bảng 3: Bảng kết quả hồi quy logistic các mô hình dự báo tình trạng KQTC sử dụng thông tin phi cấu trúc, thông tin cấu trúc và kết hợp hai loại thông tin trên ***, **, * đại diện lần lượt cho mức ý nghĩa thống kê 1%, 5% và 10%. PHÁT TRIỂN & HỘI NHẬP Số 19 (29) - Tháng 11-12/2014 Nghiên Cứu & Trao Đổi 26 như kỳ vọng với tình trạng KQTC, cho thấy khi các thảo luận của Ban quản trị về tương lai của doanh nghiệp mang thiên hướng Tích cực thì xác suất KQTC của doanh nghiệp trong năm sau đó sẽ giảm xuống và ngược lại. Biến số NEWS (0.173) cũng phù hợp với kỳ vọng về dấu, cho thấy nếu tin tức trực tuyến của doanh nghiệp càng hàm chứa nhiều từ khóa và nội dung đại diện cho chủ đề KQTC, sẽ làm gia tăng xác suất công ty rơi vào tình trạng KQTC trong tương lai. Cuối cùng, khi xem xét mức ý nghĩa dự báo của mô hình, tác giả thấy rằng chỉ với hai nguồn thông điệp phi cấu trúc từ bên trong và bên ngoài doanh nghiệp có thể dự báo chính xác lên đến hơn 60% các công ty kiệt quệ hay khỏe mạnh, bước đầu khẳng định được vai trò của nguồn dữ liệu phi cấu trúc trong việc dự báo KQTC. 4.2. Mô hình 2 (chỉ sử dụng dữ liệu cấu trúc) Kết quả mô hình 2 cho thấy khả năng dự báo KQTC của các biến số cấu trúc truyền thống. Tác giả nhận thấy có 4 trong tổng số 7 biến kế toán có ý nghĩa thống kê bao gồm biến vốn luân chuyển trên doanh thu (VLC/DT), thu nhập ròng trên tổng tài sản (TNR/TTS), doanh thu trên tổng tài sản (DT/TTS), thu nhập trên tổng tài sản (TN/ TTS. Tiếp theo, tác giả xem xét kết quả ở nhóm biến quản trị công ty. Với 6 biến quản trị được sử dụng, 4 biến có ý nghĩa thống kê bao gồm SDIC (có ý nghĩa thống kê ở mức 10%), OUTSIDE và BOSS (có ý nghĩa thống kê ở mức 5%) và SGOV (có ý nghĩa thống kê ở mức 1 %). Khi xem xét hệ số hồi quy của các biến số này, Biến số SGOV có hệ số hồi quy cao nhất (0.194) so với các biến số còn lại SDIC (0.008), OUTSIDE (-0.036), BOSS (0.025). Giá trị cao của hệ số hồi quy của biến SGOV cho thấy sở hữu nhà nước tác động đáng kể đến xác suất KQTC của các công ty. Kết quả này thống nhất với các nghiên cứu trên thế giới (như Lu, Shen, Wei, 2013). Những công ty có mức sở hữu nhà nước càng cao thì càng có xác suất KQTC cao hơn so với những công ty có mức sở hữu nhà nước thấp. Sở hữu của ban giám đốc và sở hữu cổ đông lớn càng cao thì xác suất KQTC của công ty cũng tăng cao. Ngược lại, xác suất KQTC có tương quan âm với là tỉ lệ giám đốc thuê ngoài (OUTSIDE), nghĩa là công ty càng có số lượng giám đốc thuê ngoài lớn thì càng có xác suất lâm vào tình trạng KQTC thấp. Cuối cùng, khi xét vai trò của các nhóm biến đại diện cho điều kiện vĩ mô trong việc dự báo KQTC, 3 biến số tiêu biểu được sử dụng là Lạm phát (INF), Tốc độ tăng trưởng GDP và Lãi suất (IR). Kết quả tìm thấy khá tương đồng với nhiều nghiên cứu trên thế giới chỉ có biến lạm phát có ý nghĩa thống kê nhưng chỉ ở mức ý nghĩa 10%. 4.3. Mô hình 3 (kết hợp dữ liệu phi cấu trúc và dữ liệu cấu trúc truyền thống) Kết quả hồi quy của mô hình 3 cho thấy khả năng kết hợp của dữ Mô hình 1 Mô hình 2 Mô hình 3 Biến DISTRESS (t+1) DISTRESS (t+1) DISTRESS (t+1) Phi cấu trúc TONEt -0.502*** -0.281*** NEWSt 0.173*** 0.099*** Cấu trúc VLC/DTt -0.013** -0.079** TM/TTSt -0.126 -0.117 TSHH/TTSt -0.007 -0.015 TNR/TTSt -0.103*** -0.037* DT/TTSt -0.093* -0.064* CF/DTt -0.221 -0.257 TN/TTSt -0.015*** -0.061*** SDICt 0.162 0.079 SOUTt 0.001 0.001 SGOVt 0.194*** 0.203*** SBIGt 0.008* 0.039* OUTSIDEt -0.036** -0.055** BOSSt 0.025** 0.016** INFt 0.001* 0.001* GDPGt -0.056 -0.042 IRt 0.030 0.031 CONSTANT 0.579* 0.606* 0.634* -2 Log likelihood 100.621 152.438 287.266 Cox& Snell R square 0.399 0.451 0.596 Nagelkerke R Square 0.473 0.502 0.688 Độ chính xác dự báo 60.601% 78.159% 89.424% Sai số loại I 0.475 0.449 0.365 Bảng 6: Danh sách các từ khóa đại diện cho các chủ đề phân lớp tương ứng Số 19 (29) - Tháng 11-12/2014 PHÁT TRIỂN & HỘI NHẬP Nghiên Cứu & Trao Đổi 27 liệu cấu trúc và phi cấu trúc so với các mô hình 1 hoặc 2, chỉ sử dụng từng dạng dữ liệu riêng biệt. Các biến số phi cấu trúc TONE (α= -0.281) và NEWS (α= 0.099) đều có ý nghĩa ở mức 1%, dấu các hệ số vẫn như kỳ vọng và không thay đổi so với khi được hồi quy riêng lẽ ở mô hình 1. Nguồn thông tin từ bên trong doanh nghiệp (TONE) có tác động nhiều đến xác suất KQTC hơn là nguồn thông tin từ bên ngoài doanh nghiệp. Các biến số kế toán, quản trị và vĩ mô cũng có dấu và mức ý nghĩa khá tương đồng với kết quả hồi quy khi chúng được xem xét riêng (mô hình 2). Điều này cho thấy hai mảng thông tin cấu trúc và phi cấu trúc có tác dụng bổ sung cho nhau chứ không thay thế lẫn nhau trong việc dự báo xác suất KQTC. Hơn nữa, độ chính xác của mô hình kết hợp hai mảng thông tin này là cao nhất (89.424%) so với mô hình đơn lẻ (60,1% và 78.159%), cho thấy vai trò của biến số phi cấu trúc trong việc cải thiện khả năng dự báo của mô hình so với dạng mô hình dự báo trên dữ liệu cấu trúc truyền thống. 5. Kết luận và hàm ý chính sách 5.1. Kết luận Bên cạnh các biến số tài chính luôn mang vai trò trọng yếu trong dự báo tình trạng KQTC của doanh nghiệp, bằng chứng thực nghiệm tại thị trường VN cho thấy quản trị công ty đại chúng là một nhân tố quan trọng tác động đến tình trạng KQTC của doanh nghiệp VN, điều này là phù hợp với các bằng chứng thực nghiêm tại các quốc gia châu Á khác như Trung Quốc (Wang và Deng, 2006; Lu, Yang-Cheng và Shu-Lien, 2009; Lu, Shen và Wei, 2013). Các chỉ số vĩ mô không có đóng góp nhiều trong dự báo KQTC tại VN, trừ chỉ số lạm phát có một đóng góp nhỏ trong mô hình dự báo. Quan trọng hơn, nguồn thông tin phi cấu trúc góp phần đáng kể trong việc dự báo KQTC. Nghiên cứu này đã xác định được danh sách các từ khóa mang đặc trưng của VN có vai trò quan trọng trong phân tích thông điệp phi cấu trúc trong tương lai, bên cạnh những từ khóa đã được tìm thấy từ các học giả trên thế giới. Nguồn thông tin mềm nội bộ của các công ty niêm yết được thu thập trên các phần thảo luận và dự báo tình hình tương lai của công ty trên BCTN đã thể hiện vai trò quan trọng trong dự báo tình trạng KQTC của doanh nghiệp VN. Khi nhà quản lý công bố những thông tin dự báo mang sắc thái tích cực về tình hình tương lai của doanh nghiệp, doanh nghiệp này sẽ có xác suất rơi vào tình trạng KQTC giảm đi. Nguồn thông tin phi cấu trúc dạng tin tức trực tuyến đăng trên các sở giao dịch chứng khoán cũng chứng tỏ khả năng dự báo xác suất KQTC của doanh nghiệp trong tương lai. Đồng thời, khi kết hợp cả hai nguồn thông tin phi cấu trúc và cấu trúc thì hiệu quả dự báo KQTC được cải thiện đáng kể. 5.2. Hàm ý chính sách Bằng chứng thực nghiệm ở thị trường VN đã cho thấy khả năng kết hợp của hai nguồn thông tin phi cấu trúc và cấu trúc trong việc dự báo KQTC vượt trội hơn so với chỉ sử dụng nguồn dữ liệu cấu trúc truyền thống. Tuy nhiên, để khai thác được nguồn thông tin phi cấu trúc, đòi hỏi phải có những quy định nhằm đảm bảo sự thống nhất trong bình bày nội dung thông tin. Chẳng hạn xét riêng hệ thống thông tin phi cấu trúc trên Báo cáo thường niên tại VN, việc không đồng nhất về trình bày mẫu báo cáo này hiện nay đang gây không ít khó khăn trong việc xây dựng biến số đại diện cho thông tin phi cấu trúc ở mảng này. Về hệ thống thông tin phi cấu trúc bên ngoài doanh nghiệp, chúng tôi cho rằng việc mở rộng và phát triển một hệ thống tập trung dữ liệu tin tức trực tuyến cần được chú trọng, chúng ta có thể tham khảo các hệ thống dữ liệu thông minh ở các quốc gia trên thế giới, trong đó dữ liệu được công bố một cách công khai, minh bạch nhất đến nhà đầu tư Kết quả nghiên cứu cũng hàm ý rằng nhà đầu tư, thị trường và các nghiên cứu tài chính trong tương lai cần chú ý tới các thông tin phi cấu trúc trong việc đánh giá, xây dựng các mô hình dự báo tài chính. Sẽ là thiếu sót nếu các mô hình dự báo bỏ qua nguồn thông tin nàyl TÀI LIỆU THAM KHẢO Altman, E. I. (1968), “Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy”, Journal of Finance, Vol 23 (4), 589-609. Beaver (1967), “Financial Ratios as predictors of Failure”, Journal of Accounting Research, 123-154. Cecchini, M. (2010), “Making words work: Using financial text as a predictor of financial events”, Decision Support Systems, Vol. 50, 164-175. Hay Sinh (2013), “Ước tính xác suất phá sản trong thẩm định giá trị doanh nghiệp”, Tạp chí Phát triển và hội nhập, số 8(18), tr.52-57. Healy, P, M. and Palepu, K. (2000), “Information Asymmetry, Corporate Disclosure and the Capitan Markets: A review of Empirical Disclosure Literature”, Journal of Accounting and Economics, Volume 31 (1), 405-440. (Xem tiếp trang 51 )
File đính kèm:
- su_truyen_tai_thong_diep_cua_du_lieu_phi_cau_truc_trong_du_b.pdf