Phương pháp tổ hợp thẻ và thuộc tính trong giấu tin trên định dạng siêu văn bản
Bài báo đề xuất các phương án giấu tin trên định dạng siêu văn bản HTML. Bằng
phương thức sắp xếp trật tự của thẻ và thuộc tính của thẻ trong định dạng siêu văn bản,
phương pháp của bài báo chỉ làm thay đổi cấu trúc của văn bản giấu tin mà không làm
ảnh hưởng đến nội dung của văn bản. Trên phương diện kỹ thuật, việc cho phép thay đổi
linh hoạt cấu trúc của định dạng văn bản sẽ tạo ra những thuận lợi trong việc biểu diễn
thông tin mật mà không gây ra những thay đổi quá lớn đến văn bản giấu tin.
Bạn đang xem tài liệu "Phương pháp tổ hợp thẻ và thuộc tính trong giấu tin trên định dạng siêu văn bản", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Phương pháp tổ hợp thẻ và thuộc tính trong giấu tin trên định dạng siêu văn bản
Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên PHƢƠNG PHÁP TỔ HỢP THẺ VÀ THUỘC TÍNH TRONG GIẤU TIN TRÊN ĐỊNH DẠNG SIÊU VĂN BẢN Tạ Minh Thanh ٭ , Nguyễn Hiếu Minh Khoa Công nghệ Thông tin, Học viện Kỹ thuật Quân sự TÓM TẮT Bài báo đề xuất các phƣơng án giấu tin trên định dạng siêu văn bản HTML. Bằng phƣơng thức sắp xếp trật tự của thẻ và thuộc tính của thẻ trong định dạng siêu văn bản, phƣơng pháp của bài báo chỉ làm thay đổi cấu trúc của văn bản giấu tin mà không làm ảnh hƣởng đến nội dung của văn bản. Trên phƣơng diện kỹ thuật, việc cho phép thay đổi linh hoạt cấu trúc của định dạng văn bản sẽ tạo ra những thuận lợi trong việc biểu diễn thông tin mật mà không gây ra những thay đổi quá lớn đến văn bản giấu tin. Từ khóa: Kỹ thuật giấu tin, định dạng siêu văn bản, steganography. ĐẶT VẤN ĐỀ Trong những năm gần đây, World Wide Web (WWW) đã phát triển mạnh mẽ và tạo nên một môi trƣờng tiện dụng, thân thiện trong việc trao đổi thông tin giữa ngƣời sử dụng. WWW là một môi trƣờng mà trong nó cho phép các định dạng siêu văn bản đƣợc triển khai để chuyển tải thông tin đến ngƣời sử dụng nhƣ Website, Web Server, Một trang Web là một phần của Website, nó là một văn bản đƣợc gửi đến cho ngƣời sử dụng bởi Web Server. Ngƣời sử dụng sẽ dùng các trình duyệt Web nhƣ Internet Explore, Firefox, để mở một trang Web. Thông qua các trình duyệt, nội dung của các trang Web sẽ đƣợc hiển thị chính xác và có thể link đến các trang Web liên quan thông qua mạng internet. Trên thực tế, các dữ liệu định dạng siêu văn bản không chỉ chứa nội dung thông tin cần chuyển tải đến ngƣời sử dụng, mà còn chứa các thông tin về cấu trúc của các thẻ (tags) và thuộc tính (attributes) của các thẻ giúp các trình duyệt hiểu đƣợc cách trình Tạ Minh Thanh, Email: taminhjp@gmail.com bày và hiển thị trang Web. Những thông tin về thẻ và thuộc tính của một trang Web đƣợc định nghĩa bởi ngôn ngữ đánh dấu siêu văn bản HTML (HyperText Markup Language) do W3C [1] tạo lập. Bài báo quan tâm đến đặc điểm của ngôn ngữ đánh dấu siêu văn bản sau: Ngôn ngữ HTML chỉ hiển thị thông tin văn bản mà không hiển thị cấu trúc của thẻ và thuộc tính của thẻ; Khi thay đổi một trong các thuộc tính của thẻ thì không làm thay đổi nhiểu hiển thị nội dung của trang Web. Dựa trên những đặc điểm này của ngôn ngữ định dạng siêu văn bản, bài báo đề xuất phƣơng pháp sử dụng thẻ và thuộc tính của thẻ để giấu các thông tin mật vào văn bản HTML mà không bị phát hiện do có thay đổi cấu trúc bởi các trình duyệt Web. Ngoài ra, với thuật toán đƣa ra trong bài báo, dung lƣợng tin mật đƣợc giấu trong văn bản đƣợc tăng lên mà không làm ảnh hƣởng đến hiển thị thông tin trên trình duyệt Web. Phần 2 của bài báo trình bày khái niệm chung của giấu tin mật và nhấn mạnh tầm quan trọng của giấu tin mật trong thời đại phát triển công nghệ thông tin Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên hiện nay. Phần 3 giới thiệu các phƣơng pháp giấu tin trong văn bản đã đƣợc đề xuất và phân tích những nhƣợc điểm của các phƣơng pháp này. Tiếp theo, phƣơng pháp giấu tin trong văn bản bằng kỹ thuật tổ hợp thẻ và thuộc tính của thẻ đƣợc đƣa ra trong phần 4 và 5, đồng thời, đánh giá khả năng giấu tin và tính bảo mật của phƣơng pháp. Cuối cùng, bài báo tổng kết kết quả và đƣa ra hƣớng nghiên cứu tiếp theo. Kỹ thuật giấu tin Trong thời đại công nghệ thông tin phát triển nhƣ hiện nay, việc trao đổi thông tin đã trở nên dễ dàng và thuận tiện. Chính vì thế, bảo mật thông tin là một vấn đề trở nên cấp thiết và kỹ thuật giấu tin đã ra đời để đáp ứng đƣợc phần nào nhu cầu bảo đảm an toàn trao đổi thông tin trên mạng. Kỹ thuật giấu tin đƣợc biết đến bởi hai lĩnh vực chủ yếu là Steganography (giấu tin mật) và Watermarking (thủy ấn). Steganography là kỹ thuật giấu thông tin mật vào các dữ liệu truyền thông (văn bản, ảnh, nhạc, phim, ) để chuyển tải đến ngƣời nhận mà ngƣời thứ ba không thể biết đƣợc có sự tồn tại của thông tin mật trong quá trình truyền. Kỹ thuật Steganography đã làm thay đổi tƣ duy trong lĩnh vực bảo mật thông tin bởi tính khả thi của việc ẩn một lƣợng thông tin mật trong một dữ liệu thông thƣờng mà khó bị phát hiện bằng giác quan của con ngƣời. Bên cạnh đó, Watermarking là kỹ thuật đƣợc sử dụng chủ yếu trong bảo vệ bản quyền sản phẩm số bằng cách đƣa thông tin bản quyền nhƣ tên tác giả, logo, vào sản phẩm. Với sự tồn tại của thông tin thủy ấn, nhà sản xuất có thể chứng minh đƣợc nguồn gốc của sản phẩm khi sản phẩm bị phát tán không hợp pháp. Cả hai kỹ thuật này đƣợc sử dụng với các mục đích khác nhau song chúng đều có đặc điểm chung là giấu thông tin vào sản phẩm gốc sao cho không bị phát hiện bởi ngƣời thứ ba trong quá trình trao đổi thông tin trên mạng. Hình 1 mô tả qui trình giấu tin trong các sản phẩm số và truyền thông tin trên mạng để đảm bảo tính bảo mật của thông tin truyền đi [2]. Mô hình này gồm có 3 giai đoạn thực hiện là giấu tin, truyền dữ liệu và trích rút thông tin. Trong đó, embedded data là dữ liệu đƣợc giấu vào cover-text; stego-text là dữ liệu đã đƣợc xử lý bới quá trình giấu tin và chứa nội dung của embedded data; stegokey là thông tin khóa đƣợc sử dụng trong quá trình xử lý giấu tin và trích rút thông tin, stegokey phải đƣợc bảo đảm bí mật trong suốt quá trình trao đổi thông tin. Mô hình này đƣợc áp dụng phổ biến cho hầu hết các dữ liệu thông thƣờng đƣợc trao đổi trên mạng và nó đã phát huy đƣợc hiệu quả sử dụng. Tuy nhiên, trong phạm vi bài báo này, chúng tôi chỉ đề cập đến vấn đề sử dụng mô hình trong giấu thông tin mật trên các dữ liệu văn bản mà trọng tâm là dữ liệu siêu văn bản HTML đang đƣợc sử dụng rộng rãi trong lĩnh vực truyền thông đa phƣơng tiện trên internet. Hình 1. Mô hình giấu tin trong truyền dữ liệu PHƢƠNG PHÁP GIẤU TIN TRÊN VĂN BẢN Phần này trình bày các kỹ thuật giấu tin trên văn bản đã đƣợc đề xuất và phân tích những nhƣợc điểm của các phƣơng pháp này khi áp dụng cho giấu tin trên dữ liệu HTML. Phƣơng pháp từ điển Phƣơng pháp này không thực hiện xử lý ký tự văn bản nhƣ định dạng ảnh hay sử dụng mã font của ký tự để giấu thông tin. Phƣơng pháp giấu tin từ điển sẽ dựa vào ý nghĩa của các từ để tạo ra một bản thay Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên thế từ trong văn bản bằng một từ có ý nghĩa tƣơng tự [3]. Nhƣ vậy, nội dung văn bản stego-text đƣợc tạo ra sẽ có ý nghĩa tƣơng tự nhƣ văn bản cover-text và đồng thời chứa nội dung của embedded data. Trong phƣơng pháp này, stegokey chính là bảng từ điển dùng để thay thế các từ đồng nghĩa trong văn bản gốc để đƣợc một văn bản tƣơng đƣơng. Phƣơng pháp này có thể sử dụng cho giấu tin trong thông tin của dữ liệu HTML một cách dễ dàng, song nó bộc lộ những nhƣợc điểm sau: - Do một từ hoặc một cụm từ trong văn bản gốc đƣợc thay thế bởi một từ hay một cụm từ đã chuẩn bị sẵn trong từ điển nên nội dung và mạch văn của văn bản gốc sẽ bị thay đổi khiến cho ý nghĩa của văn bản không đƣợc rõ nghĩa trong một số trƣờng hợp. - Dễ dàng tính toán đƣợc tần suất xuất hiện của một từ hoặc một cụm từ trong văn bản stego-text bằng phƣơng pháp thống kê dẫn đến nội dung văn bản bị nghi ngờ. Từ những nhƣợc điểm của phƣơng pháp giấu tin từ điển, nội dung văn bản stego- text sẽ có căn cứ để phát hiện nội dung thông tin mật chứa trong nó. Bởi vậy, tính bảo mật của phƣơng pháp này không an toàn cho nội dung dữ liệu mật khi truyền thông trên internet. Phƣơng pháp duy trì hiển thị văn bản Phƣơng pháp này chú trọng đến đặc trƣng hiển thị văn bản trƣớc và sau khi xử lý giấu tin. Những biến đổi sau khi đã giấu tin trên văn bản stego-text hầu nhƣ không bị phát hiện bởi thị giác của con ngƣời dù in văn bản trên các máy in có độ phân giải cao [4][5]. Các phƣơng pháp giấu tin trong văn bản dạng này sử dụng chủ yếu các kỹ thuật nhƣ thay đổi khoảng cách của ký tự, các cụm từ, các dòng văn bản; biến đổi góc độ của các ký tự, mật độ điểm ảnh; hay thay đổi cỡ chữ của văn bản. Đặc trƣng của phƣơng pháp giấu tin trong văn bản sử dụng phƣơng pháp duy trì hiển thị là có khả năng lƣu trữ đƣợc thông tin mật khi văn bản đƣợc in ấn. Tuy nhiên, trong một số trƣờng hợp văn bản điện tử đƣợc hiển thị dƣới một định dạng khác thì khả năng mất thông tin giấu vào rất lớn. Phƣơng pháp này có thể áp dụng cho giấu tin trong dữ liệu siêu văn bản HTML nhƣng xét về khả năng tƣơng thích của các trình duyệt (IE, Firefox, Netscape, ) và một số yếu tố liên quan đến hiển thị văn bản (font chữ, độ phân giải, ) thì khả năng bị phát hiện thông tin mật giấu trong HTML bởi ngƣời sử dụng rất cao. Phƣơng pháp sử dụng ký tự không hiển thị Phần lớn các văn bản có thể sử dụng ký tự không hiển thị để giấu thông tin trong văn bản gốc mà không làm thay đổi nội dung, ý nghĩa và cấu trúc của văn bản gốc. Phƣơng pháp này tận dụng những ký tự đặc biệt (ký tự trắng, ký tự xuống dòng, ) thêm vào văn bản gốc để biểu diễn thông tin mật [6]. Những ký tự thêm vào sẽ không hiển thị nên về mặt hiển thị văn bản sẽ không hề bị thay đổi, tuy nhiên, từ cấu trúc của văn bản ta có thể trích rút đƣợc các thông tin mật đƣợc biểu diễn bởi phƣơng pháp này. Đây cũng chính là phƣơng pháp đƣợc chú ý rất nhiều trong gửi thông tin mật trên internet dƣới dạng gửi một văn bản dữ liệu thông thƣờng. Bên cạnh mặt dễ dàng sử dụng và có hiệu quả, phƣơng pháp này còn bị hạn chế bởi một số nhƣợc điểm. Nhƣợc điểm này tồn tại trong kết quả giấu tin là văn bản stego-text. Khi văn bản stego-text đƣợc gửi đi trên internet, nội dung văn bản có thể bị xử lý bởi các thuật toán chỉnh sửa cấu trúc văn bản để loại bỏ các ký tự thừa, không có ý nghĩa khiến thông tin mật có thể bị mất và không thể phục hồi lại đƣợc. Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên Chính vì lý do đó, nếu sử dụng phƣơng pháp này trong giấu tin mật trên văn bản HTML, thông qua việc hiển thị mã (source code) của trang Web trên trình duyệt, ngƣời thứ ba có thể thấy đƣợc sự “khác thƣờng” trong cấu trúc dữ liệu và dễ dàng lọc đƣợc thông tin mật bằng phƣơng pháp phân tích thống kê. Yêu cầu đối với thuật toán giấu tin trên văn bản Từ những phân tích của các phƣơng pháp giấu tin trên dữ liệu văn bản trƣớc đây, ta thấy đƣợc những nhƣợc điểm cần khắc phục để hạn chế đƣợc rủi ro bị phát hiện thông tin mật bởi ngƣời thứ ba. Vì vậy, yêu cầu của một thuật toán giấu tin trên văn bản cần đảm bảo đƣợc những yêu cầu nhƣ sau: - Tính đồng nhất: Nội dung và ý nghĩa của văn bản stego-text sau khi đƣợc xử lý phải đảm bảo đồng nhất với văn bản gốc cover- text. - Tính trong suốt: Khi cấu trúc của văn bản stego-text đƣợc hiển thị bởi một thao tác nào đó thì không có những thay đổi lớn gây nghi ngờ cho ngƣời thứ ba. - Tính chính xác: Nội dung của thông tin mật phải đƣợc trích rút chính xác từ stego-text mà không làm thay đổi đến nội dung và ý nghĩa của văn bản này. Với những yêu cầu đặt ra trên, bài báo sẽ lựa chọn phƣơng pháp giấu tin vào dữ liệu HTML để đảm bảo tính bảo mật cho dữ liệu đƣợc giấu vào. GIẢI PHÁP GIẤU TIN TRÊN HTML Trong phần này, bài báo phân tích những đặc trƣng của dữ liệu định dạng siêu văn bản HTML và chỉ ra những yếu tố có thể thay đổi trong cấu trúc định dạng dữ liệu mà không làm thay đổi thông tin hiển thị. Đặc trƣng của HTML HTML là một dạng văn bản có cấu trúc và đƣợc cấu thành từ các thành phần văn bản khác nhau bởi các thẻ đƣợc định nghĩa sẵn. Trong dữ liệu định dạng HTML bao gồm nội dung thông tin (content), cấu trúc dữ liệu (structure: tags, distributes) và định dạng văn bản (style: css). Trên thực tế, dữ liệu HTML là tổ hợp của nhiều dạng dữ liệu văn bản khác nhau để hiển thị thành trang Web và đƣợc gọi là văn bản HTML. Thông thƣờng, một trang Web đƣợc hiển thị trên trình duyệt Web chỉ hiển thị nội dung thông tin của trang Web mà không hiển thị cấu trúc dữ liệu và định dạng văn bản. Bởi vậy, ngƣời sử dụng thông thƣờng chỉ đọc đƣợc các nội dung trên trang Web do máy chủ quản lý trang Web gửi đến. Chính đặc trƣng này của định dang HTLM có thể đƣợc khai thác để giấu thông tin trong các trang Web đƣợc truyền tải trên internet mà không làm ảnh hƣởng đến nội dung chính của trang Web. Bài báo sẽ đƣa ra phƣơng pháp sử dụng các cấu trúc của trang Web để giấu thông tin nhƣ các thẻ, các thuộc tính của các đối tƣợng (hình ảnh, âm thanh, link, bảng biểu, ) trên trang Web Sử dụng thẻ cấu trúc trong giấu tin Ngôn ngữ định dạng siêu văn bản HTML có rất nhiều thẻ đƣợc định nghĩa để xây dựng cấu trúc của trang Web. Trong đó có 2 loại thẻ cơ bản đƣợc sử dụng chính: thẻ cấu trúc bắt buộc gồm có 2 loại thẻ là thẻ mở (Open Tag: OT) và thẻ đóng (Close Tag: CT); thẻ cấu trúc chỉ sử dụng một thẻ (ONce Tag: NT) hoặc có thể sử dụng cả hai thẻ nhƣ trên để biểu diễn dữ liệu. Khi biểu diễn thông tin trên định dạng siêu văn bản, việc sử dụng linh hoạt thẻ cấu trúc trong giấu thông tin embedded data bằng stegokey sẽ không làm thay đổi hiển thị nội dung của trang Web trên trình duyệt Web thông thƣờng. Bảng 1 là một số thẻ cấu trúc có thể sử dụng để biểu diễn thông tin bằng 2 thẻ hay chỉ bằng 1 thẻ. Bảng 1. Một số thẻ có thể sử dụng trong giấu tin Tên thẻ Sử dụng OT và Sử dụng Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên CT NT Ví dụ, hình 2 mô tả việc sử dụng thẻ trong văn bản gốc cover-text để giấu thông tin. Phƣơng pháp này sẽ sử dụng thẻ hoặc thẻ để giấu thông tin 1 bit vào văn bản mà không làm ảnh hƣởng đến hiển thị của hình ảnh trên trang Web. Hình 2. Ví dụ về giấu tin bằng thẻ Sử dụng thuộc tính của thẻ trong giấu tin Việc sử dụng cấu trúc của thẻ để giấu tin nhƣ trong 4.2 về mặt hiển thị nội dung trên các trình duyệt Web là hoàn toàn giống nhau và không bị phát hiện bởi thị giác của con ngƣời. Tuy nhiên, mỗi cấu trúc thẻ chỉ có thể biểu diễn đƣợc 2 bits thông tin nên dung lƣợng thông tin ẩn đƣợc giấu vào một trang Web còn có nhiều hạn chế. Ta nhận thấy mỗi một thẻ cấu trúc còn có kèm theo rất nhiều các thuộc tính hỗ trợ hiển thị thông tin. Nếu sử dụng các thuộc tính của thẻ trong biểu diễn thông tin bởi thứ tự xuất hiện của từng thuộc tính thì ta sẽ cải thiện đƣợc dung lƣợng thông tin mật giấu vào trong trang Web là đáng kể. Bảng 2 là một số thẻ và thuộc tính thông dụng đƣợc dùng trong văn bản HTML. Bảng 2. Một số thẻ và thuộc tính thông dụng Tên thẻ Thuộc tính id, src, width, height, align, border, hspace, vspace, usemap, alt id, lang, title, type, media, dir, xml:lang, id, lang, style, class, title, dir, align, id, lang, size, face, color, class, style, title, Ta thấy rằng, khi sử dụng các thuộc tính của thẻ để tạo đối tƣợng trong văn bản HTML thì việc thay đổi thứ tự của các thuộc tính không làm ảnh hƣởng đến hiển thị của đối tƣợng trong văn bản. Ví dụ, khi sử dụng thẻ để hiển thị hình ảnh ta có thể viết cấu trúc của thẻ nhƣ trong hình 3. Trong ví dụ này, các thuộc tính của thẻ nhƣ id, src, width, height đƣợc sử dụng trong hình 3(a), 3(b) với thứ tự khác nhau. Tuy nhiên, khi trang Web đƣợc hiển thị trên trình duyệt Web thì hình ảnh và dung lƣợng của văn bản HTML cũng không bị thay đổi so với văn bản gốc. Nhƣ vậy, với phƣơng pháp thay đổi thứ tự các thuộc tính của một thẻ cấu trúc, ta có thể giấu đƣợc nhiều bit thông tin mật vào văn bản HTML. Chính thứ tự các thuộc tính của một thẻ cấu trúc không làm ảnh hƣởng đến hiển thị của văn bản gốc trên trình duyệt nên có thể sử dụng để giấu tin trên các trang Web truyền tải trên internet. Hình 3. Ví dụ về tuần tự thuộc tính của thẻ Trong trƣờng hợp sử dụng các thuộc tính của thẻ cấu trúc để giấu thông tin, giả sử thẻ có n thuộc tính đƣợc dùng trong văn bản, khi đó thứ tự sắp xếp của các thuộc Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên tính sẽ có là n! cách. Nhƣ vậy, lƣợng thông tin có thể giấu đƣợc trong một trƣờng hợp sắp xếp các thuộc tính là 2log ( !)n [bits] Kết hợp thẻ và thuộc tính trong giấu tin bền vững Phƣơng pháp tổ hợp thẻ và thuộc tính giúp cho khả năng tăng dung lƣợng thông tin mật đƣợc giấu vào một văn bản HTML. Bên cạnh việc tăng lƣợng thông tin mật, bài báo sẽ phân tích khả năng bền vững của thông tin mật khi bị phân tích dữ liệu. Phƣơng pháp tổ hợp thẻ và thuộc tính sẽ giúp việc trao đổi thông tin mật trên mạng internet có hiệu quả và có khả năng tránh đƣợc mất mát thông tin trong quá trình truyền dữ liệu. KỸ THUẬT GIẤU TIN BẰNG PHƢƠNG PHÁP TỔ HỢP THẺ VÀ THUỘC TÍNH Thuật toán giấu tin Thuật toán giấu tin trong văn bản HTML gồm 4 bƣớc đƣợc mô tả trong hình 4. Hình 4. Phƣơng pháo tổ hợp thẻ và thuộc tính Step 1. Xác định đối tƣợng thẻ: chọn thẻ để tạo stegokey. Thuật toán chọn các thẻ cấu trúc có khả năng sử dụng hai trƣờng hợp OT/CT và NT trong cấu trúc văn bản HTML. Step 2. Tạo bảng stegokey: trên cơ sở chọn thẻ trong Step 1, thuật toán chọn một số thuộc tính của thẻ để tạo thành bảng stegokey và xác định chuỗi bits thông tin đƣợc giấu vào mỗi trƣờng hợp. Step 3. Chỉnh thuộc tính: trong văn bản gốc, khi xuất hiện các thẻ trong stegokey, thuật toán sẽ kiểm tra các thuộc tính để chỉnh sửa các thuộc tính sao cho có đầy đủ các thuộc tính trong stegokey. Step 4. So sánh stegokey để thay thế các thẻ và thuộc tính của thẻ trong cấu trúc văn bản HTML. Trong bƣớc này, thuật toán sẽ trích các bit thông tin mật trong embeddeb data để so sánh với stegokey và xác định đƣợc thứ tự các thuộc tính trong thẻ cấu trúc. Nhƣ vậy, văn bản HTML sau khi đƣợc xử lý sẽ đƣợc thay đổi thẻ cấu trúc và trật tự của các thuộc tính của nó bởi stegokey. Tuy nhiên, nội dung của trang Web sẽ không hề bị thay đổi mà vẫn có thể chứa đƣợc một lƣợng thông tin mật trong cấu trúc văn bản. Quá trình trích rút thông tin mật sẽ sử dụng stegokey để trích ra các chuỗi bits đã giấu vào trong cấu trúc của văn bản HTML trong mỗi trƣờng hợp của thẻ và trật tự của các thuộc tính. Đặc trƣng của thuật toán Thuật toán có đặc trƣng chính là bảng stegokey đƣợc xây dựng trên cơ sở chọn thẻ cấu trúc một cách linh hoạt. Giả sử, trong bài báo sử dụng thẻ và các thuộc tính id, src, width, height làm stegokey, khi đó, bảng stegokey đƣợc sinh ra nhƣ bảng 3. Bảng 3. Bảng stegokey dùng thực nghiệm trong thuật toán Embedd ed bits Tag Attributes 0 0000 OT/CT id scr width height 1 NT 0 0001 OT/CT id scr height width 1 NT 0 0010 OT/CT id width src height 1 NT 0 0011 OT/CT id width height src 1 NT 0 0100 OT/CT id height width src Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 1 NT 0 0101 OT/CT id height src width 1 NT 0 0110 OT/CT src id height width 1 NT 0 0111 OT/CT src id width height 1 NT 0 1000 OT/CT src width id height 1 NT 0 1001 OT/CT src width height id 1 NT 0 1010 OT/CT src height id width 1 NT 0 1011 OT/CT src height width id 1 NT 0 1100 OT/CT widt h id src height 1 NT 0 1101 OT/CT widt h id height src 1 NT 0 1110 OT/CT widt h src id height 1 NT 0 1111 OT/CT widt h src height id 1 NT unus ed Unused widt h height id src unus ed unused heig ht id src width Bảng stegokey sẽ xây dựng tất cả các tuần tự xuất hiện của thuộc tính thẻ và cấu trúc của thẻ trong văn bản HTML; đồng thời, chỉ ra chuỗi bits đƣợc giấu vào trong mỗi tổ hợp của thẻ và thuộc tính. Trạng thái ban đầu của tổ hợp thẻ và thuộc tính sẽ đƣợc dùng để giấu thông tin chuỗi bit “00000”. Các tổ hợp “unused” sẽ không đƣợc sử dụng trong giấu tin trong văn bản stego-text. Với bảng stegokey trong bảng 3, nếu thông tin trích rút từ embedded data là “10101” thì thẻ đƣợc cấy vào trong văn bản stego-text là: Hình 5. Ví dụ về thẻ và thuộc tính đƣợc sinh ra bởi bảng 3 Khả năng giấu tin Giả sử với mỗi thẻ đƣợc chọn ra để giấu tin, ta chọn n thuộc tính để tạo bảng stegokey. Trong n! tổ hợp của thuộc tính này, chọn 2 log ( !) 2 n cách sắp xếp để giấu tin trong văn bản. Nhƣ vậy, mỗi cách sắp xếp của thẻ và thuộc tính sẽ giấu đƣợc 2log ( !)n +1 [bits]. Nếu trong văn bản gốc có số lần xuất hiện của thẻ đƣợc chọn làm stegokey là N lần, thì tổng dung lƣợng thông tin mật đƣợc giấu vào stego-text là 2(log ( !) 1)N n [bits]. Độ bền vững của tin mật Điểm quyết định để tạo stegokey là tuần tự xuất hiện của thuộc tính thẻ trong văn bản gốc. Tuần tự này sẽ quyết định chuỗi bit giấu đầu tiên là “0000”. Chính đặc điểm này sẽ quyết định độ bền vững của tin giấu bởi xác suất của tổ hợp cho thuộc tính trong văn bản gốc là rất lớn. Nếu thẻ có n thuộc tính thì khả năng tuần tự của thuộc tính trong văn bản gốc sẽ là n! cách sắp xếp. Chỉ khi nào xác định đƣợc tuần tự của các thuộc tính trong văn bản gốc mới có khả năng trích rút đƣợc thông tin mật trong stego-text. Mặt khác, trong bảng stegokey, không phải tất cả các tổ hợp của thuộc tính đều đƣợc sử dụng để giấu tin. (n! - 2log ( !)2 n ) tổ hợp còn lại (đƣợc đánh dấu bởi “unused” trong bảng 3) sẽ là những xác suất gây khó khăn cho việc tấn công phân tích dữ liệu mật trong stego-text. KẾT LUẬN Bài báo trình bày một thuật toán sử dụng tổ hợp thẻ và thuộc tính của thẻ trong cấu trúc siêu văn bản để biểu diễn thông tin mật. Với việc thay đổi tuần tự của thuộc tính trong thẻ, văn bản giấu tin không bị ảnh hƣởng về nội dung hiển thị trong trình duyệt mà cấu trúc của văn bản cũng không xáo trộn đáng kể. Mặt khác, do số lƣợng thuộc tính của thẻ lớn nên số lƣợng tổ hợp đƣợc tạo ra tƣơng đối lớn dẫn đến độ phức tạp trong quá trình thám mã thông tin mật. Bài báo đã xây dựng thực nghiệm bảng stegokey để tiến hành giấu thông tin trong Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên các trang VNExpress.net, Yahoo.com, Google.com. Bằng phƣơng pháp này, tác giả sẽ phát triển nghiên cứu để giấu thông tin trong các văn bản eXtensible Markup Language (XML). TÀI LIỆU THAM KHẢO [1]. [2]. B. Pfitzman, Information Hiding Terminology, Information Hiding First International Workshop, LNCS(1174), Springer, 1996, pp.347-350. [3]. Nakagawa Hiroshi, Kimura Hiroyasu, Sampei Koji, Information Hiding for Japanese Text Based on Replacing Words with Dictionary, Information Processing Society of Japan (IPSJ), Vol. 41, No.8, 2000, pp. 2272 - 2281. [4]. Nakamura Yasuhiro, Matsui Kineo, Digital Wartermarking onto Japanese Documents by Seal Image, Information Processing Society of Japan (IPSJ), Vol. 38, No.11, 1997, pp. 2356 - 2362. [5]. T. Nakagawa, S. Taki, S. Sinoue, Special Features: Information Hiding, Information Processing Society of Japan (IPSJ), Vol. 44, No.3, 2003, pp. 248 - 253. [6]. The SNOW Home Page, Tạ Minh Thanh và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 59(11): 51 - 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên SUMMARY THE CONSIDERATION OF COMBINATION TAGS AND ATTRIBUTES FOR INFORMATION HIDING ON HTML DOCUMENTS Ta Minh Thanh , Nguyen Hieu Minh Faculty of Informaiton Technology, Le Quy Don Technical University Article proposed a scheme for information hiding on hypertext HTML format. Methods sort by order of the tags and attributes of the tag in the hypertext format and methods of the article only change the structure of the text information hidden without affecting the content of the text. On technical aspects, allowing flexibility to change the structure of the text format will create advantages in performing information security without causing changes to the text is too big to hide information. Keywords:Information Hiding, HTML Documents, steganography. Ta Minh Thanh, Email: taminhjp@gmail.com
File đính kèm:
- phuong_phap_to_hop_the_va_thuoc_tinh_trong_giau_tin_tren_din.pdf