Phương pháp tạo thông tin phụ trợ mới cho hệ thống mã hóa video liên lớp phân tán

Video ngày càng trở nên quan trọng trong cuộc sống.

Mã hóa video đã tiến một bước rất dài với rất nhiều các cải tiến quan

trọng. Với các yêu cầu mới, trong những năm gần đây, mã hóa video

liên lớp ngày càng được quan tâm nhiều hơn. Có thể kể đến các

chuẩn mã hóa video liên lớp hiện nay như SVC, mở rộng khả năng

liên lớp của H264/AVC hay SHVC, mở rộng khả năng liên lớp cho

chuẩn mã hóa video HEVC. Bên cạnh đó, các giải pháp mã hóa video

liên lớp phân tán (DSVC) đã được đề xuất. Các kết quả nghiên cứu

cho thấy DSVC mang đến một giải pháp hoàn hảo cho các ứng dụng

vì có nhiều đặc điểm nổi trội như bộ mã hóa có độ phức tạp thấp, khả

năng chống lỗi cao trong khi vẫn tương thích với các chuẩn mã hóa

video hiện thời. Cũng giống như mã hóa video phân tán (DVC),

thông tin phụ trợ (SI) được tạo ra ở bộ giải mã đóng vai trò quan

trọng đối với hiệu năng hệ thống DSVC. Vì vậy, bài báo này giới

thiệu một phương pháp tạo thông tin phụ trợ mới cho hệ thống

DSVC. Phương pháp đề xuất sử dụng kỹ thuật kết hợp ở mức khối

giữa khung hình ở lớp cơ sở và khung hình ở lớp tăng cường để tạo

ra một khung hình SI. Kết quả thực nghiệm cho thấy phương pháp

mới này tạo ra thông tin phụ trợ có chất lượng tốt hơn so với một số

phương pháp tạo thông tin phụ trợ trước đó.

pdf 6 trang kimcuc 8620
Bạn đang xem tài liệu "Phương pháp tạo thông tin phụ trợ mới cho hệ thống mã hóa video liên lớp phân tán", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phương pháp tạo thông tin phụ trợ mới cho hệ thống mã hóa video liên lớp phân tán

Phương pháp tạo thông tin phụ trợ mới cho hệ thống mã hóa video liên lớp phân tán
Nguyễn Thị Hương Thảo, Vũ Văn San 
Tác giả liên hệ: Nguyễn Thị Hương Thảo 
email: thaontth@ptit.edu.vn 
Đến tòa soạn: 7/2017, chỉnh sửa: 8/2017, chấp nhận đăng: 9/2017. 
PHƢƠNG PHÁP TẠO THÔNG TIN PHỤ TRỢ 
MỚI CHO HỆ THỐNG MÃ HÓA VIDEO LIÊN 
LỚP PHÂN TÁN 
Nguyễn Thị Hƣơng Thảo, Vũ Văn San 
Học viện Công nghệ Bưu chính Viễn thông 
Tóm tắt: Video ngày càng trở nên quan trọng trong cuộc sống. 
Mã hóa video đã tiến một bước rất dài với rất nhiều các cải tiến quan 
trọng. Với các yêu cầu mới, trong những năm gần đây, mã hóa video 
liên lớp ngày càng được quan tâm nhiều hơn. Có thể kể đến các 
chuẩn mã hóa video liên lớp hiện nay như SVC, mở rộng khả năng 
liên lớp của H264/AVC hay SHVC, mở rộng khả năng liên lớp cho 
chuẩn mã hóa video HEVC. Bên cạnh đó, các giải pháp mã hóa video 
liên lớp phân tán (DSVC) đã được đề xuất. Các kết quả nghiên cứu 
cho thấy DSVC mang đến một giải pháp hoàn hảo cho các ứng dụng 
vì có nhiều đặc điểm nổi trội như bộ mã hóa có độ phức tạp thấp, khả 
năng chống lỗi cao trong khi vẫn tương thích với các chuẩn mã hóa 
video hiện thời. Cũng giống như mã hóa video phân tán (DVC), 
thông tin phụ trợ (SI) được tạo ra ở bộ giải mã đóng vai trò quan 
trọng đối với hiệu năng hệ thống DSVC. Vì vậy, bài báo này giới 
thiệu một phương pháp tạo thông tin phụ trợ mới cho hệ thống 
DSVC. Phương pháp đề xuất sử dụng kỹ thuật kết hợp ở mức khối 
giữa khung hình ở lớp cơ sở và khung hình ở lớp tăng cường để tạo 
ra một khung hình SI. Kết quả thực nghiệm cho thấy phương pháp 
mới này tạo ra thông tin phụ trợ có chất lượng tốt hơn so với một số 
phương pháp tạo thông tin phụ trợ trước đó. 
Từ khóa: Video phân tán, mã hóa video liên lớp, thông tin phụ 
trợ. 
I. GIỚI THIỆU 
Nhu cầu sử dụng video tăng nhanh trong những năm gần 
đây và điều này càng đặt ra nhiều yêu cầu đối với các kỹ thuật 
mã hóa video. Mục đích của mã hóa video là nén dữ liệu video 
với số lượng bit ít hơn mà vẫn đáp ứng các yêu cầu liên quan 
của một ứng dụng cụ thể nào đó. Các tiêu chuẩn mã hóa video 
hiện nay chủ yếu dựa vào các kỹ thuật sau đây: 1) các kỹ thuật 
ước lượng và bù chuyển động để loại bỏ dư thừa thời gian; 2) 
các kỹ thuật mã hóa và lượng tử hóa để loại bỏ dư thừa không 
gian và tận dụng các đặc điểm của hệ thống thị giác người và 
3) kỹ thuật mã hóa entropy để loại bỏ dư thừa thống kê. Hầu 
hết các tác vụ này đều được thực hiện tại phía bộ mã hóa và vì 
vậy, độ phức tạp bộ mã hóa là rất cao so với độ phức tạp bộ 
giải mã. Điều này trở thành trở ngại cho các ứng dụng mới yêu 
cầu độ phức tạp bộ mã hóa thấp và khả năng chống lỗi cao. 
Giải pháp đầy hứa hẹn có thể hỗ trợ cho các ứng dụng này là 
mã hóa video phân tán (DVC) [1]. Giờ đây, mã hóa video phân 
tán (DVC) đã không còn xa lạ với rất nhiều các giải pháp được 
đề xuất với các kết quả rất khả quan. Nhắc đến mã hóa video 
phân tán là nói đến các ưu điểm mà các kỹ thuật mã hóa video 
truyền thống không có được ví dụ như bộ mã hóa độ phức tạp 
thấp, khả năng chống lỗi cao. Các kết quả thực nghiệm của các 
codec video phân tán thực tế cho thấy sự phù hợp của DVC đối 
với các ứng dụng này. 
Một điều quan trọng cần phải nhắc đến là thói quen giải trí 
video đã thay đổi. Với sự phát triển nhanh chóng của các thiết 
bị thông minh khác nhau như điện thoại di động, máy tính bảng 
hay máy tính cầm tay, có thể nói người xem có thể xem video 
mọi lúc, mọi nơi bất cứ khi nào họ muốn. Cùng một nội dung 
video có thể được truyền trên các đường truyền có băng thông 
khác nhau, chất lượng khác nhau và được hiển thị trên các thiết 
bị có kích thước khác nhau, độ phân giải khác nhau và khả 
năng xử lý khác nhau. Người ta gọi đó là hiện trạng mạng và 
thiết bị hỗn tạp. Trước tình hình này, một yêu cầu khác đặt ra 
cho các chuẩn mã hóa video hiện thời là khả năng liên lớp. 
Làm sao để nội dung video đến được với nhiều người sử dụng 
trong nhiều tình huống mạng khác nhau và được xem trên các 
thiết bị đầu cuối khác nhau. 
Đứng trước các thay đổi này, một yêu cầu đặt ra đối với các 
giải pháp mã hóa video cho các ứng dụng mới là phải đáp ứng 
được các yếu tố sau: độ phức tạp bộ mã hóa thấp, khả năng 
chống lỗi cao và có khả năng liên lớp. Câu trả lời là hệ thống 
mã hóa video liên lớp phân tán (DSVC) [2,3]. DSVC để chỉ tất 
cả các giải pháp mã hóa video mà ở đó có sử dụng các nguyên 
tắc mã hóa video phân tán đồng thời vẫn cung cấp khả năng 
liên lớp. Cũng giống như các hệ thống mã hóa video liên lớp 
khác, DSVC gồm một lớp cơ sở (BL) và một hoặc nhiều lớp 
tăng cường (EL). Để có thể tương thích với các chuẩn mã hóa 
video hiện nay, thông thường lớp cơ sở được mã hóa bằng các 
chuẩn mã hóa video truyền thống như H264/AVC hay HEVC 
và lớp tăng cường được mã hóa theo nguyên tắc mã hóa video 
phân tán. 
Để hiểu hơn về DSVC, trước hết bài báo giới thiệu về mã 
hóa nguồn phân tán vì đây là nền tảng cho mã hóa video phân 
tán. Mã hóa nguồn phân tán dựa trên hai kết quả lý thuyết 
thông tin quan trọng là định lý Slepian-Wolf và Wyner-Ziv. 
Các định lý phát biểu rằng khi so sánh với sơ đồ mã hóa truyền 
thống sẽ không có sự tổn thất về hiệu suất nén nếu hai hoặc 
nhiều nguồn độc lập thống kê được mã hóa độc lập và giải mã 
kết hợp. Hai định lý này đã mở ra các cơ hội mới cho cho mã 
hóa video hay còn gọi là mã hóa video phân tán. Do việc mã 
hóa được thực hiện độc lập và việc giải mã thực hiện kết hợp 
nên dư thừa thời gian chỉ được khai thác tại bộ giải mã thay vì 
bộ mã hóa, do đó bộ mã hóa có độ phức tạp rất thấp nếu so với 
mã hóa video truyền thống. Trong DVC, chuỗi X là thông tin 
Số 01 (CS.01) 2017 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 28
PHƯƠNG PHÁP TẠO THÔNG TIN PHỤ TRỢ MỚI CHO HỆ THỐNG MÃ HÓA VIDEO 
chính, thông tin được mã hóa Wyner-Ziv và chuỗi Y là thông 
tin phụ trợ (SI). Thông tin phụ trợ là một dự đoán của thông tin 
chính và được tạo ra ở phía giải mã. Bộ giải mã sẽ sử dụng 
thông tin phụ trợ này kết hợp với một số thông tin bổ sung từ 
phía mã hóa gửi đến để dự đoán ra thông tin chính X (Hình 1). 
Do đó, nếu tương quan giữa chuỗi X và chuỗi Y càng cao thì 
số lượng bit bộ mã hóa cần gửi sang cho bộ giải mã càng ít. 
Nói cách khác, hiệu quả các kỹ thuật tạo thông tin phụ trợ sẽ 
ảnh hưởng đáng kể đến hiệu năng tổng thể của codec video 
phân tán hay còn gọi là codec video Wyner-Ziv (WZ). Cho đến 
hiện nay, rất nhiều các nghiên cứu tập trung vào các kỹ thuật 
tạo thông tin phụ trợ. Thông tin phụ trợ có thể được tạo ra theo 
cách tiếp cận kiểu dự đoán [4,5]. Trong [4], Aaron và các cộng 
sự đã đề xuất một phương pháp tạo thông tin phụ trợ bằng cách 
lấy trung bình hai khung hình chính gần nhất và thực hiện nội 
suy bù chuyển động dựa trên các vector chuyển động đối xứng. 
Trong [5], SI được tạo ra theo bốn bước: 1) ước lượng chuyển 
động trước; 2) ước lượng chuyển động song hướng; 3) làm mịn 
chuyển động không gian và 4) bù chuyển động song hướng. 
Một cách tiếp cận khác trong việc tạo thông tin phụ trợ là dựa 
trên kỹ thuật học [6]. Thay vì giữ nguyên thông tin phụ trợ 
trong toàn bộ quá trình giải mã khung hình WZ, ở đây thông 
tin phụ trợ được cải thiện liên tục khi bộ giải mã nhận được 
càng nhiều bit chẵn lẻ từ phía bộ mã hóa. Các tác giả trong 
[7,8] đã đề xuất cách tiếp cận dựa trên kỹ thuật thử trong đó 
quá trình giải mã và lựa chọn thông tin phụ trợ được thực hiện 
đồng thời. Trong các phương pháp này, bộ mã hóa gửi các 
thông tin bổ sung tới bộ giải mã nhưng bộ giải mã chỉ sử dụng 
các thông tin này để xác minh tính đúng đắn của thông tin được 
giải mã. 
Hình 1. Phương pháp nén video phân tán với thông tin phụ trợ 
phía giải mã 
Nói về khái niệm khả năng liên lớp, đó chính là việc chia 
luồng video truyền thống thành nhiều luồng bit con và thường 
gọi là các lớp. Luồng bit con có chất lượng thấp nhất gọi là lớp 
cơ sở và các luồng bit con còn lại gọi là các lớp tăng cường với 
chất lượng tốt nhất thuộc về lớp tăng cường cao nhất. Độ phân 
giải và chất lượng của luồng bit có thể thay đổi tùy theo khả 
năng xử lý, kích thước màn hình của thiết bị giải mã và tốc độ 
truyền tải của mạng bằng cách loại bỏ bớt các gói tin từ luồng 
bit gốc ban đầu. Thông thường có ba khả năng liên lớp là liên 
lớp thời gian, không gian và chất lượng (hình 2). 
Trong [2,3], Hoàng Văn Xiêm và các cộng sự đã đề xuất 
kiến trúc mã hóa video phân tán liên lớp thời gian và chất 
lượng. Bài báo này tập trung vào kiến trúc mã hóa video phân 
tán liên lớp không gian. Trong kiến trúc DSVC này, các khung 
hình ở lớp cơ sở có kích thước nhỏ hơn so với các khung hình 
ở lớp tăng cường. Vì vậy, so với các kiến trúc DSVC liên lớp 
thời gian và chất lượng, tạo thông tin phụ trợ trong hệ thống 
DSVC liên lớp không gian có rất nhiều điểm khác biệt. Bài báo 
này giới thiệu một phương pháp tạo thông tin phụ trợ mới cho 
hệ thống DSVC liên lớp không gian dựa trên kỹ thuật kết hợp 
khung hình. 
 Phần tiếp theo của bài báo được tổ chức như sau. Phần II 
giới thiệu về kiến trúc DSVC liên lớp không gian được sử dụng 
trong bài báo. Phương pháp tạo thông tin phụ trợ đề xuất được 
mô tả trong Phần III. Các kết quả và thảo luận được giới thiệu 
trong phần IV và phần V là kết luận. 
Hình 2. Các khả năng liên lớp 
II. KIẾN TRÚC MÃ HÓA VIDEO PHÂN TÁN LIÊN LỚP 
KHÔNG GIAN 
Hình 3. Bộ mã hóa DSVC 
Giống như các kiến trúc mã hóa video truyền thống, kiến 
trúc mã hóa video liên lớp phân tán DSVC cũng bao gồm một 
lớp cơ sở và một/hoặc nhiều lớp tăng cường. Để đơn giản, 
trong bài báo này mô tả kiến trúc DSVC gồm một lớp cơ sở và 
một lớp tăng cường. Để có khả năng tương thích với các chuẩn 
mã hóa hiện nay, lớp cơ sở được mã hóa theo phương pháp mã 
hóa video truyền thống, trong mô hình này sử dụng bộ mã hóa 
và giải mã HEVC. Lớp tăng cường được mã hóa theo phương 
pháp mã hóa video phân tán hay còn gọi là mã hóa Wyner-Ziv 
(WZ). Nhóm các khung hình (GOP) được thiết lập bằng 2 
nghĩa là cứ một khung hình WZ nằm giữa hai khung hình 
Số 01 (CS.01) 2017 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 29
Nguyễn Thị Hương Thảo, Vũ Văn San 
chính. Sơ đồ bộ mã hóa và giải mã DSVC được mô tả trong 
hình 3,4 tương ứng. 
A. Quá trình mã hóa 
Hình 3 mô tả kiến trúc bộ mã hóa DSVC liên lớp không 
gian. Chuỗi video gốc sẽ được đưa qua module giảm độ phân 
giải để tạo ra các khung hình có độ phân giải không gian nhỏ 
hơn cho lớp cơ sở. Các khung hình lớp cơ sở sẽ được mã hóa 
bằng bộ mã hóa HEVC. Đối với lớp tăng cường, quá trình mã 
hóa như sau. 
Hình 4. Bộ giải mã DSVC 
Chia tách khung hình: Các khung hình lớp tăng cường 
được chia thành các khung hình WZ (WZF) và khung hình 
chính (KF) xen kẽ nhau. Các khung hình lẻ là các khung hình 
chính còn các khung hình chẵn là các khung hình WZ. 
Bộ mã hóa SHVC: Các khung hình chính được mã hóa 
bằng cách sử dụng bộ mã hóa SHVC, chuẩn mở rộng khả năng 
liên lớp của chuẩn mã hóa video HEVC. 
Mô hình hóa nhiễu tương quan: Phương pháp mã hóa video 
WZ thực hiện mã hóa sự sai khác giữa thông tin gốc tại bộ mã 
hóa và thông tin phụ trợ được tạo ra tại phía giải mã. Do đó, cả 
bộ mã hóa và bộ giải mã cần phải biết về tương quan thống kê 
giữa thông tin gốc và thông tin phụ trợ. Vì thế khối này thực 
hiện mô hình hóa nhiễu tương quan giữa khung hình WZ gốc 
và khung hình thông tin phụ trợ tương ứng. Thông tin đầu ra sẽ 
được gửi tới bộ mã hóa Slepian-Wolf để mã hóa cho khung 
hình WZ. 
DCT: Để khai thác dư thừa không gian, các khung hình WZ 
sẽ được biến đổi DCT để tạo ra các ma trận hệ số tương ứng. 
Lượng tử hóa: Để loại bỏ dư thừa không gian và tận dụng 
các đặc điểm của thị giác người, các ma trận hệ số DCT được 
đưa qua bộ lượng tử hóa với các hệ số lượng tử tùy theo chất 
lượng mong muốn. 
Bộ mã hóa Slepian-Wolf: Bộ mã hóa này thực hiện mã hóa 
các hệ số DCT đã lượng tử hóa có sử dụng thông tin từ khối 
mô hình hóa nhiễu tương quan. Bộ mã hóa này có thể là bộ mã 
hóa kênh hoặc bộ mã hóa syndrome tùy thuộc vào các cách tiếp 
cận khác nhau. 
B. Quá trình giải mã 
Kiến trúc bộ giải mã DSVC liên lớp không gian được mô tả 
trong Hình 4. Trước hết, luồng bit cơ sở được giải mã bởi bộ 
giải mã HEVC. Luồng bit tăng cường được chia thành các 
khung hình chính và khung hình WZ. Các khung hình chính 
được giải mã bởi bộ giải mã SHVC. Các khung hình WZ được 
giải mã như sau. 
Bộ đệm: Bộ đệm lưu giữ các khung hình chính trước và sau 
sau khi đã được giải mã. Các khung hình chính này được sử 
dụng để hỗ trợ cho việc tạo thông tin phụ trợ. 
Tạo SI: Thông tin phụ trợ được coi như một phiên bản 
nhiễu của thông tin gốc. Nó được tạo ra dựa trên các thông tin 
sẵn có ở phía giải mã. Trong kiến trúc DSVC liên lớp không 
gian, thông tin phụ trợ có thể được xây dựng dựa trên các 
khung hình chính trước và sau và các khung hình tương ứng ở 
lớp cơ sở. 
Giải mã Slepian-Wolf: Bộ giải mã Slepian-Wolf thực hiện 
giải mã thông tin gốc bằng cách sửa sai thông tin phụ trợ dựa 
trên các thông tin nhận được của bộ mã hóa Slepian-Wolf từ 
phía mã hóa gửi tới. 
Giải lượng tử và IDCT: Sau khi giải mã Slepian-Wolf, 
thông tin được tái tạo bằng cách giải lượng tử và biến đổi DCT 
ngược. 
Hợp nhất khung hình: Các khung hình WZ và khung hình 
chính được hợp nhất với nhau tạo nên lớp tăng cường. 
III. PHƢƠNG PHÁP TẠO THÔNG TIN PHỤ TRỢ 
Với kiến trúc DSVC liên lớp không gian được đề cập ở 
trên, có thể thấy vai trò quan trọng của thông tin phụ trợ đối với 
hiệu năng của hệ thống. Thông tin phụ trợ được xây dựng càng 
giống với thông tin gốc thì lượng bit cần gửi bổ sung từ phía 
mã hóa đến phía giải mã càng ít. Vì vậy bài báo này đề xuất 
một giải pháp tạo thông tin phụ trợ dựa trên kỹ thuật kết hợp 
các khung hình ở mức khối. Trong kiến trúc này, có hai ứng 
viên thông tin phụ trợ được tạo ra: 1) SIMCTI - thông tin phụ trợ 
được tạo nên bởi kỹ thuật rất phổ biến trong mã hóa video phân 
tán có tên gọi nội suy thời gian bù chuyển động (MCTI)[5] và 
2) SIBL - thông tin phụ trợ được tạo ra bằng cách tăng độ phân 
giải cho khung hình lớp cơ sở tương ứng. Sau đó một kỹ thuật 
kết hợp được thực hiện giữa hai ứng viên SI này để tạo ra 
thông tin phụ trợ cuối cùng SIFusion. 
A. Tạo SIMCTI 
Kỹ thuật nội suy thời gian bù chuyển động thực hiện ước 
lượng khung hình thông tin phụ trợ dựa vào các khung hình 
chính trước và sau. Hình 5 mô tả các bước thực hiện của kỹ 
thuật này. 
Hình 5. Kỹ thuật nội suy bù chuyển động - MCTI 
Bộ lọc thông thấp: Khởi đầu, các khung hình chính được 
đưa qua bộ lọc thông thấp để cải thiện độ tin cậy của các vector 
chuyển động. 
Số 01 (CS.01) 2017 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 30
PHƯƠNG PHÁP TẠO THÔNG TIN PHỤ TRỢ MỚI CHO HỆ THỐNG MÃ HÓA VIDEO 
Ước lượng chuyển động trước: Bước này thực hiện ước 
lượng một vector chuyển động cho mỗi khối trong khung hình 
chính sau với tham chiếu tới khung hình chính trước. 
 Ước lượng chuyển động song hướng: Sử dụng các phép 
chiếu của vector chuyển động, đối với mỗi khối trong khung 
hình SI sẽ lựa chọn vector chuyển động nào đi qua khối đó và 
gần với tâm khối nhất và coi đó là vector chuyển động của 
khối. Vector chuyển động được lựa chọn sẽ được chia thành 
hai vector chuyển động trước và sau với giả định chuyển động 
không đổi. 
Làm mịn không gian: Tại bước này, bộ lọc trung vị được 
thực hiện trên hai trường vector chuyển động để loại bỏ các 
vector chuyển động ở biên. 
Bù chuyển động song hướng: Thực hiện lấy trung bình hai 
khối đã bù chuyển động trong khung hình chính trước và sau 
để tạo ra thông tin phụ trợ. 
B. Tạo SIBL 
Đối với kiến trúc DSVC liên lớp không gian, lớp cơ sở và 
lớp tăng cường có độ phân giải khác nhau. Lớp cơ sở có thể 
coi như phiên bản độ phân giải thấp của lớp tăng cường. Do 
đó SIBL được tạo ra bằng cách tăng độ phân giải cho khung 
hình lớp cơ sở tương ứng. Trong bài báo này sử dụng kỹ thuật 
tăng độ phân giải giống như trong SHVC [9]. Mỗi khung hình 
lớp cơ sở được tăng độ phân giải với bộ lọc đáp ứng xung 
chiều dài hữu hạn FIR. Khi tăng độ phân giải một khung hình 
với tỉ lệ N, khái niệm được sử dụng là để nội suy khung hình 
lên 16 lần kích thước của nó và sau đó giảm kích thước với tỉ 
lệ M ở đó M = 16, theo cả hai hướng x và y. Gọi FSI,L và FSI,C 
các khung hình thông tin phụ trợ với các kênh chói và kênh 
màu. FBL,L và FBL,C là các khung hình lớp cơ sở với các kênh 
chói và kênh màu tương ứng. Khi đó mỗi pixel (x,y) trong 
khung hình SIBL được tính như sau: 
 ( ) 
∑ 
( 
 ) 
 (∑ 
( ) ( )
)
(1) 
 ( ) 
∑ 
( 
 ) 
 (∑ 
( ) ( )
)
(2) 
Trong đó xBL. yBL, xphase, yphase được xác định như sau: 
 ( )
 ( )
 ( ) 
 ( ) 
 (3) 
N là hệ số tỉ lệ giữa lớp cơ sở ban đầu và sau khi tăng độ 
phân giải. % là toán tử chia lấy phần dư và 'round' là hàm làm 
tròn đến số nguyên gần nhất. fL and fC được định nghĩa trong 
[9]. 
Tại biên của khung hình, khi tính toán công thức 1 và 2 mà 
cần các giá trị bên ngoài khung hình thì sẽ sử dụng các giá tị tại 
biên đó. Công thức như sau: 
 ( ( ))
 ( ( ))
 (4) 
ở đó Fwidth, Fheigth là độ rộng và chiều cao của khung hình. 
C. Kết hợp khung hình 
Trong phần này, SIMCTI và SIBL được kết hợp với nhau để 
tạo thành thông tin phụ trợ cuối cùng SIFusion 
Bước 1: Cải thiện chất lượng của khung hình MCTI 
Sau khi khung hình MCTI được tạo ra từ các khung hình 
chính trước và sau, các khối (block) có kích thước $8x8$ của 
ba khung hình này được so sánh với các pixel tương ứng trong 
khung hình đã tăng độ phân giải. Các khối có sự sai khác nhỏ 
nhất (Mean Absolute Difference) sẽ được ấn định mang giá trị 
khối của khung hình MCTI. Giả định rằng 
là giá trị của các pixel trong các khung hình trước, sau, MCTI 
và khung hình đã tăng độ phân giải tương ứng tại các tọa độ i 
và j. Giá trị của khung hình MCTI mới được tính toán như sau: 
 (∑ | 
 | ∑ | 
 | 
 ∑ | 
 | )
 (5) 
 {
 ∑ | 
 | 
 ∑ | 
 | 
 (6) 
trong đó 
 tương ứng là các khối hình có kích 
thước 8x8 của khung hình MCTI, khung hình trước và khung 
hình sau tại tọa độ r,c. 
Bước 2: Tạo khung hình kết hợp 
Khung hình kết hợp được tạo ra bằng cách kết hợp giữa 
khung hình đã tăng độ phân giải và khung hình MCTI được tạo 
ra ở bước 1. Cụ thể, các giá trị pixel trong khung hình kết hợp 
được tính như sau: 
 ( ) 
 (7) 
Trong công thức 7, là trọng số đo lường sự đóng góp của 
khung hình MCTI và khung hình đã tăng độ phân giải vào 
khung hình kết hợp. được lựa chọn bằng 0.1. 
IV. ĐIỀU KIỆN THỬ NGHIỆM VÀ PHÂNT ÍCH KẾT QUẢ 
A. Điều kiện thử nghiệm 
Để đánh giá hiệu năng của giải pháp tạo thông tin phụ trợ 
đề xuất so với các phương pháp khác, bốn chuỗi video sau 
được sử dụng là BasketballDrill, BQMall, PartyScene và 
Số 01 (CS.01) 2017 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 31
Nguyễn Thị Hương Thảo, Vũ Văn San 
RaceHorses với các đặc điểm được mô tả trong Bảng I. Hình 6 
mô tả các khung hình đầu tiên của bốn chuỗi video thử nghiệm. 
Hình 6. Các khung hình đầu tiên của 4 chuỗi video thử nghiệm 
Bảng I. ĐIỀU KIỆN THỬ NGHIỆM 
Chuỗi 
Video thử 
nghiệm 
Độ 
phân 
giải 
không 
gian 
Độ 
phân 
giải 
thời 
gian 
Số 
lượng 
khung 
hình 
Hệ số lượng 
tử 
Basketball
Drill 
EL: 832 
x 480 
BL: 
416 x 
240 
50 Hz 50 EL: 32 
BL: 30 
BQMall 60 Hz 50 EL: 32 
BL: 30 
PartyScene 50 Hz 50 EL: 32 
BL: 30 
RaceHorses 30 Hz 50 EL: 32 
BL: 30 
Hình 7. PSNR của khung hình thông tin phụ trợ trong chuỗi 
BasketballDrill. 
B. Phân tích kết quả 
Hình 7, 8 mô tả PSNR của các khung hình thông tin phụ trợ 
trong bốn chuỗi video thử nghiệm. Như quan sát trong hình, 
phương pháp MCTI cho kết quả PSNR thấp nhất. Lý do là vì 
trong phương pháp này, thông tin phụ trợ được tạo ra bởi nội 
suy chuyển động từ các khung hình trước và sau tại lớp tăng 
cường. Tuy nhiên, hiệu quả của nội suy phụ thuộc vào chuyển 
động của khung hình. Vì vậy, chất lượng của khung hình bị 
thay đổi theo từng khung hình. Trong khi đó, phương pháp 
tăng độ phân giải từ lớp cơ sở và phương pháp kết hợp cho giá 
trị PSNR cao hơn, đặc biệt là giá trị PSNR của phương pháp 
kết hợp. Điều này đạt được là do trong phương pháp kết hợp, 
khung hình kết hợp được tạo ra từ các khối hình có chất lượng 
cao nhất được chọn từ khung hình MCTI và khung hình của 
lớp cơ sở. 
Hình 8. PSNR của khung hình thông tin phụ trợ trong chuỗi 
RaceHorse. 
Bảng II mô tả sự so sánh PSNR trung bình của các khung 
hình SI được tạo ra trong ba phương pháp. Như được chỉ ra 
trong hình, phương pháp đề xuất đạt được PSNR cao hơn so 
với các phương pháp MCTI và phương pháp tăng độ phân giải 
cho lớp cơ sở. Sự cải thiện này đạt được chủ yếu từ việc sử 
dụng kỹ thuật nâng cao chất lượng của khung hình MCTI và 
sau đó là sự kết hợp giữa khung hình cơ sở và khung hình 
MCTI. 
Bảng II. PSNR (dB) TRUNG BÌNH CỦA CÁC CHUỖI VIDEO 
THỬ NGHIỆM 
 SIMCTI SIBL SIFusion 
BasketballDrill 26.33 31.67 32.01 
BQMall 27.70 28.12 28.38 
PartyScene 25.27 24.99 25.33 
RaceHorses 21.84 29.94 30.04 
V. KẾT LUẬN 
Bài báo này giới thiệu mô hình kiến trúc DSVC liên lớp 
không gian và đề xuất kỹ thuật kết hợp khung hình vào việc tạo 
thông tin phụ trợ. Trong phương pháp này, khung hình thông 
tin phụ trợ tại bộ giải mã được tạo ra bằng cách sử dụng kỹ 
thuật kết hợp ở mức khối giữa khung hình được tạo từ kỹ thuật 
MCTI và khung hình được tạo từ kỹ thuật tăng độ phân giải 
cho khung hình lớp cơ sở. Các kết quả thực nghiệm so sánh 
Số 01 (CS.01) 2017 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 32
PHƯƠNG PHÁP TẠO THÔNG TIN PHỤ TRỢ MỚI CHO HỆ THỐNG MÃ HÓA VIDEO 
phương pháp đề xuất với các phương pháp MCTI và phương 
pháp tăng độ phân giải cho thấy phương pháp đề xuất có thể 
cải thiện đáng kể chất lượng của khung hình thông tin phụ trợ. 
Trong các nghiên cứu tiếp theo sẽ tập trung cải thiện các 
module khác trong kiến trúc DSVC nhằm cải thiện hơn nữa 
hiệu năng tổng thể của hệ thống. 
TÀI LIỆU THAM KHẢO 
[1] P.L Dragotti and M. Gastpar, “Distributed Source Coding: 
Theory, Algorithms and Applications,” Academic Press, Feb. 
2009. 
[2] X. HoangVan, J. Ascenso, and F. Pereira, “HEVC backward 
compatible scalability: A low encoding complexity distributed 
video coding based approach,” Signal Process.: Image 
Commun., vol. 33, no. 4, pp. 51-70, Apr. 2015. 
[3] X. HoangVan, J. Ascenso, and F. Pereira., “Adaptive Scalable 
Video Coding: a HEVC based Framework Combining the 
Predictive and Distributed Paradigms”, IEEE TCSVT, vol. 99, 
no. 00, pp. 1-14, Mar. 2016. 
[4] A. Aaron, R. Thang, and B. Girod (2002) “Wyner-Ziv Coding of 
Motion Video”, in Proc. Asilomar Conference on Signals and 
Systems, Pacific Grove, CA, USA, November 2002. 
[5] J. Ascenso, C. Brites, and F. Pereira, Improving Frame 
Interpolation with Spatial Motion Smoothing for Pixel Domain 
Distributed Video Coding”in EURASIP Conference on Speech 
and Image Processing, Multimedia Communications and 
Services (EC-SIPMCS), Smolenice, Slovak Republic, June 
2005. 
[6] J. Ascenso, C. Brites, and F. Pereira, “Motion Compensated 
Refinement for Low Complexity Pixel based Distributed Video 
Coding,” in IEEE Conference on Advanced Video and Signal 
Based Surveillance (AVSS), Como, Italy, September 2005. 
[7] R. Puri and K. Ramchandran, PRISM: A new robust video 
coding architecture based on distributed compression principles, 
40th Allerton Conf. Communication, Control and Computing, 
Allerton, IL, USA, 2002. 
[8] R. Puri, A. Majumdar, and K. Ramchandran, “PRISM: a video 
coding paradigm with motion estimation at the decoder,” IEEE 
Transactions on Image Processing, vol. 16, no. 10, pp. 2436-
2448, Oct. 2007. 
[9] Jianle Chen; Jill Boyce; Yan Ye; Miska M. Hannuksela; Gary J. 
Sullivan; Ye kui Wang. HEVC Scalable Extensions (SHVC) 
Draft Text 7. document JCTVC-R1008 v7. Oct. 2014. url: 
id=9465.. 
Abstract: In recent years, video entertainment demand has 
significantly changed. Video content is transmitted through 
different bandwidth connections and played on many devices 
that have different processing capabilities and screen sizes. 
For this reason, scalable extensions of video coding standards 
have been released, e.g SHVC, scalable extension of HEVC. 
Beside high compression efficiency, SHVC has disadvantages 
including high encoder complexity and weakness in error 
resilience. These are not suitable for emerging applications 
such as wireless sensor networks, video surveillance systems 
or remote sensing that have limited processing capabilities, 
low energy and low network bandwidth. A potential solution 
supporting for these systems is Distributed Scalable Video 
Coding (DSVC). In DSVC system, Side Information (SI) 
creation plays a critical role in deciding system overall 
performance. Therefore, this paper proposes a spatially 
scalable DSVC architecture and a new side information 
creation technique for this DSVC system. Results show that 
the proposed method generates better quality SI when 
compared to some previous SI creation methods. 
Consequently, the system performance is improved when 
compared with the previous methods. 
Keyword: DVC, Wyner-Ziv Coding 
Nguyễn Thị Hƣơng Thảo, 
Nhận bằng tốt nghiệp đại học và 
thạc sỹ Học viện Công nghệ Bưu 
chính Viễn thông vào các năm 
2003 và 2010. Hiện giảng dạy và 
làm Nghiên cứu sinh tại Khoa Kỹ 
thuật Điện tử 1 - Học viện Công 
nghệ Bưu chính Viễn thông. Lĩnh 
vực nghiên cứu: Xử lý tín hiệu 
Video, Xử lý Ảnh, Lý thuyết thông 
tin. 
Vũ Văn San, Nhận học vị Tiến 
sỹ năm 2000 tại Viện Điện tử 
Viễn thông, Hàn quốc. Hiện TS. 
Vũ Văn San công tác tại Học viện 
Công nghệ Bưu chính Viễn thông. 
Lĩnh vực nghiên cứu: Truyền dẫn 
và xử lý tín hiệu số. 
Số 01 (CS.01) 2017 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 33

File đính kèm:

  • pdfphuong_phap_tao_thong_tin_phu_tro_moi_cho_he_thong_ma_hoa_vi.pdf