Giáo trình Nhập môn đa phương tiện (Phần 2)

Một điểm ảnh trong một ảnh còn được gọi là một pixel.

 Ảnh và điểm ảnh:

Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại 1 toạ độ trong không

gian của đối tượng và ảnh được xem như là 1 tập hợp các điểm ảnh.

 Mức xám, màu: Là số các giá trị có thể có của các điểm ảnh của ảnh

Hệ thống thị giác là cơ quan cảm nhận hình ảnh quang học tương đối hoàn hảo,

cho phép con người cảm nhận được hình ảnh quang học trong thiên nhiên. Ứng dụng

quan trọng nhất của xử lý ảnh là biến đổi tính chất của ảnh số nhằm tạo ra cảm nhận về

sự gia tăng chất lượng hình ảnh quang học trong hệ thống thị giác.

Tuy nhiên, mắt người chỉ cảm nhận được sóng điện từ có bước sóng hạn chế trong

vùng nhìn thấy được, do đó ảnh theo quan niệm thông thường gắn liền với hình ảnh

quang học mà mắt người có thể cảm nhận. Trong khi đó "ảnh" đưa vào xử lý có thể

được tạo ra bởi các nguồn bức xạ có phổ rộng hơn, từ sóng vô tuyến tới tia gamma, ví

dụ: ảnh do sóng siêu âm hoặc tia X tạo ra. Nhiều hệ thống xử lý ảnh có thể tương tác với

những "ảnh" nêu trên, vì vậy trên thực tế, lĩnh vực xử lý ảnh có phạm vi tướng đối

rộng, và liên quan tới nhiều lĩnh vực khoa học khác.

pdf 37 trang kimcuc 14361
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Nhập môn đa phương tiện (Phần 2)", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Giáo trình Nhập môn đa phương tiện (Phần 2)

Giáo trình Nhập môn đa phương tiện (Phần 2)
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
66 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
Chƣơng 4: Dữ liệu ảnh 
4.1. Một số khái niệm cơ bản 
Hình ảnh tĩnh có thể được biểu diễn bởi hàm hai chiều f(x,y), trong đó, x và y là tọa 
độ không gian phẳng (2 chiều). Khi xét ảnh "đen-trắng", giá trị hàm f tại một điểm 
được xác định bởi tọa độ (x,y) được gọi là độ chói (mức xám) của ảnh tại điểm này. 
Nếu x,y,và f là một số hiện hữu các giá trị rời rạc, chúng ta có ảnh số. Xử lý ảnh số là 
quá trình biến đổi ảnh số trên máy tính (PC). Như vậy, ảnh số được tạo ra bởi một số hữu 
hạn các điểm ảnh, mỗi điểm ảnh nằm tại một vị trí nhất định và có 1 giá trị nhất định. 
Một điểm ảnh trong một ảnh còn được gọi là một pixel. 
 Ảnh và điểm ảnh: 
Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại 1 toạ độ trong không 
gian của đối tượng và ảnh được xem như là 1 tập hợp các điểm ảnh. 
 Mức xám, màu: Là số các giá trị có thể có của các điểm ảnh của ảnh 
Hệ thống thị giác là cơ quan cảm nhận hình ảnh quang học tương đối hoàn hảo, 
cho phép con người cảm nhận được hình ảnh quang học trong thiên nhiên. Ứng dụng 
quan trọng nhất của xử lý ảnh là biến đổi tính chất của ảnh số nhằm tạo ra cảm nhận về 
sự gia tăng chất lượng hình ảnh quang học trong hệ thống thị giác. 
Tuy nhiên, mắt người chỉ cảm nhận được sóng điện từ có bước sóng hạn chế trong 
vùng nhìn thấy được, do đó ảnh theo quan niệm thông thường gắn liền với hình ảnh 
quang học mà mắt người có thể cảm nhận. Trong khi đó "ảnh" đưa vào xử lý có thể 
được tạo ra bởi các nguồn bức xạ có phổ rộng hơn, từ sóng vô tuyến tới tia gamma, ví 
dụ: ảnh do sóng siêu âm hoặc tia X tạo ra. Nhiều hệ thống xử lý ảnh có thể tương tác với 
những "ảnh" nêu trên, vì vậy trên thực tế, lĩnh vực xử lý ảnh có phạm vi tướng đối 
rộng, và liên quan tới nhiều lĩnh vực khoa học khác. 
Có thể tạm phân biệt các hệ thống xử lý ảnh theo mức độ phức tạp của thuật toán xử 
lý như sau: 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
67 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
1- Xử lý ảnh mức thấp: đó là các quá trình biến đổi đơn giản như thực hiện các bộ 
lọc nhằm khử nhiễu trong ảnh, tăng cường độ tương phản hay độ nét của ảnh. Trong 
trường hợp này, tín hiệu đưa vào hệ thống xử lý và tín hiệu ở đầu ra là ảnh quang học. 
2- Xử lý ảnh mức trung: quá trình xử lý phức tạp hơn, thường được sử dụng để 
phân lớp, phân đọan ảnh, xác định và dự đóan biên ảnh, nén anh để lưu trữ hoặc truyền 
phát. Đặc điểm của các hệ thống xử lý ảnh mức trung là tín hiệu đầu vào là hình ảnh, còn 
tín hiệu đầu ra là các thành phần được tách ra từ hình ảnh gốc, hoặc luồng dữ liệu nhận 
được sau khi nén ảnh. 
3- Xử lý ảnh mức cao: là quá trình phân tích và nhận dạng hính ảnh. Đây cũng là 
quá trình xử lý được thực hiện trong hệ thống thì giác của con người. 
4.2 Lĩnh vực ứng dụng kỹ thuật xử lý ảnh 
Như đã nói ở trên, các kỹ thuật xử lý ảnh trước đây chủ yếu được sử dụng để nâng 
cao chất lượng hính ảnh, chình xác hơn là tạo cảm giác về sự gia tăng chất lượng ảnh 
quang học trong mắt người quan sát. Thời gian gần đây, phạm vi ứng dụng xử lý ảnh mở 
rộng không ngừng, có thể nói hiện không có lĩnh vực khoa học nào không sử dụng các 
thành tựu của công nghệ xử lý ảnh số. Trong y học các thuật tóan xử lý ảnh cho phép biến 
đổi hính ảnh được tạo ra từ nguồn bức xạ X -ray hay nguồn bức xạ siêu âm thành hính 
ảnh quang học trên bề mặt film x-quang hoặc trực tiếp trên bề mặt màn hính hiển thị. 
Hính ảnh các cơ quan chức năng của con người sau đó có thể được xử lý tiếp để nâng cao 
độ tương phản, lọc, tách các thành phần cần thiết (chụp cắt lớp) hoặc tạo ra hính ảnh trong 
không gian ba chiều (siêu âm 3 chiều). 
Trong lĩnh vực địa chất, hính ảnh nhận được từ vệ tinh có thể được phân tìch để xác 
định cấu trúc bề mặt trái đất. Kỹ thuật làm nổi đường biên (image enhancement) và khôi 
phục hính ảnh (image restoration) cho phép nâng cao chất lượng ảnh vệ tinh và tạo ra các 
bản đồ địa hính 3-D với độ chình xác cao. 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
68 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
Ảnh nhận được từ vệ tinh dùng trong khì tượng học 
Trong ngành khì tượng học, ảnh nhận được từ hệ thống vệ tinh theo dõi thời tiết 
cũng được xử lý, nâng cao chất lượng và ghép hính để tạo ra ảnh bề mặt trái đất trên một 
vùng rộng lớn, qua đó có thể thực hiện việc dự báo thời tiết một cách chình xác hơn. Dựa 
trên các kết quả phân tìch ảnh vệ tinh tại các khu vục đông dân cư còn có thể dự đóan quá 
trính tăng trưởng dân số, tốc độ ô nhiễm môi trường cũng như các yếu tố ảnh hưởng tới 
môi trường sinh thái. Ảnh chụp từ vệ tinh có thể thu được thông qua các thiết bị ghi hính 
cảm nhận được tia sáng quang học (λ = 450 − 520 nm) (hính 2a), hoặc tia hồng ngoại (λ = 
760 − 900 nm) (hính2b). Trên hính 2a và 2b lần lượt là ảnh bề mặt trái đất nhận được từ 2 
ống ghi hính nói trên, dễ dàng nhận thấy sự khác biệt rõ ràng giữa hai ảnh. Đặc biệt trên 
ảnh 2b, hính con sông được tách biệt rất rõ ràng so với vùng ảnh hai bên bờ. Thiết bị thu 
hính nhạy cảm với vật thể bức xạ các tia trong miền hồng ngoại sẽ cho ra những bức ảnh 
trong đó vật thể có nhiệt độ thấp sẽ được phân biệt rõ ràng so với vật thể có nhiệt độ cao 
hơn. Như vậy việc lựa chọn các thiết bị ghi hính khác nhau sẽ tạo ra ảnh có đặc tình khác 
nhau, tùy thuộc vào mục đìch sử dụng trong các lĩnh vực khoa học cụ thể . 
2.2.1a 2.2.1b 
Hình 2.1.2 - Ảnh bề mặt trái đất thu được từ hai camera khác nhau 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
69 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
Xử lý ảnh còn được sử dụng nhiều trong các hệ thống quản lý chất lượng và số 
lượng hàng hóa trong các dây truyền tự động, vì dụ như hệ thống phân tìch ảnh để phát 
hiện bọt khì bên vật thể đúc bằng nhựa, phát hiện các linh kiện không đạt tiêu chuẩn (bị 
biến dạng) trong quá trính sản xuất hoặc hệ thống đếm sản phẩm thông qua hính ảnh nhận 
được từ camera quan sát. 
Xử lý ảnh còn được sử dụng rộng rãi trong lĩnh vực hính sự và các hệ thống bảo mật 
hoặc kiểm soát truy cập: quá trính xử lý ảnh với mục đìch nhận dạng vân tay hay khuôn 
mặt cho phép phát hiện nhanh các đối tương nghi vấn cũng như nâng cao hiệu quả hệ 
thống bảo mật cá nhân cũng như kiểm soát ra vào. Ngoài ra, có thể kể đến các ứng dụng 
quan trọng khác của kỹ thuật xử lý ảnh tĩnh cũng như ảnh động trong đời sống như tự 
động nhận dạng, nhận dạng mục tiêu quân sự, máy nhín công nghiệp trong các hệ thống 
điều khiển tự động, nén ảnh tĩnh, ảnh động để lưu và truyền trong mạng viễn thông v.v. 
4.3. Các giai đoạn chính trong xử lý ảnh 
1- Thu nhận hính ảnh: đây là giai đoạn đầu tiên và quan trọng nhất trong tòan bộ 
quá trính xử lý ảnh. Ảnh nhận được tại đây chình là ảnh gốc để đưa vào xử lý tại các 
giai đoạn sau, trường hợp ảnh gốc có chất lượng kém hiệu quả của các bước xử lý tiếp 
theo sẽ bị giảm. 
Thiết bị thu nhận có thể là các ông ghi hính chân không (vidicon, plumbicon v.v.) 
hoặc thiết bị cảm biến quang điện bán dẫn CCD (Charge-Coupled Device). 
2- Tiền xử lý ảnh: giai đoạn xử lý tương đối đơn giản nhằm nâng cao chất lượng ảnh 
để trợ giúp cho các quá trính xử lý nâng cao tiếp theo, vì dụ: tăng độ tương phản, làm nổi 
đường biên, khử nhiễu v.v. 
3- Phân đoạn: là quá trính tách hính ảnh thành các phần hoặc vật thể riêng biệt. Đây 
là một trong nhưng vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nếu thực hiện 
tách quá chi tiết thí bài toán nhận dạng các thành phần được tách ra trở nên phức tạp, còn 
ngược lại nếu quá trính phân đoạn được thực hiện quá thô hoặc phân đọan sai thí kết quả 
nhận được cuối cùng sẽ không chình xác. 
4- Biểu diễn và mô tả: là quá trính xử lý tiếp sau khâu phân đoạn hính ảnh. Các vật 
thể sau khi phân đọan có thể được mô tả dưới dạng chuỗi các điểm ảnh tạo nên ranh giới 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
70 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
một vùng, hoặc tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương pháp mô tả thông 
qua ranh giới vùng thường được sử dụng khi cần tập trung sự chú ý vào hính dạng bên 
ngòai của chi tiết ảnh như độ cong, các góc cạnh v.v. Biểu diễn vùng thường được sử 
dụng khi chúng ta quan tâm tới đặc tình bên trong của vùng ảnh như đường vân (texture) 
hay hính dạng skeletal. 
5- Nén ảnh - bao gồm các biện pháp giảm thiểu dung lượng bộ nhớ cần thiết để lưu 
trữ hính ảnh, hay giảm băng thông kênh truyền, cần thiết để truyền tìn hiệu hính ảnh số. 
6- Nhận dạng: là quá trính phân loại vật thể dựa trên cơ sở các chi tiết mô tả vật thể 
đó (vì dụ các phương tiện giao thông có trong ảnh). 
Các quá trính xử lý liệt kê ở trên đều được thực hiện dưới sự giám sát và điều khiển 
dựa trên cơ sở các kiến thức về lĩnh vực xử lý ảnh. Các kiến thức cơ bản có thể đơn giản 
như vị trì vùng ảnh nơi có những thông tin cần quan tâm, như vậy có thể thu nhỏ vùng tím 
kiếm. 
Trường hợp phức tạp hơn, cơ sở kiến thức có thể chứa danh sách tất cả những hư 
hỏng có thể gặp trong quá trính kiểm sóat chất lượng thành phẩm hoặc các ảnh vệ tinh có 
độ chi tiết cao trong các hệ thống theo dõi sự thay đổi môi trường trong một vùng. Ngoài 
việc điều khiển họat động của từng modul xử lý ảnh (hính 2.1.3), cơ sở kiến thức còn sử 
dụng để thực hiện việc điều khiển tương tác giữa các modules. Trong hính 2.1.3, quá trính 
điều khiển nói trên được biểu diễn bằng mũi tên hai chiều. 
Các giai đoạn xử lý ảnh số 
4.4. Các phần tử cơ bản của hệ thống xử lý ảnh số 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
71 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
Cấu trúc một hệ thống xử lý ảnh đa dụng dùng để thực hiện các giai đoạn xử lý ảnh 
đề cập ở trên được mô tả trên hính 2.1.4. 
Các thành phần chình của hệ thống xử lý ảnh 
Thiết bị thu nhận hình ảnh: là thiết bị biến đổi quang-điện, cho phép biến đổi hình 
ảnh quang học thành tín hiệu điện dưới dạng analog hay trực tiếp dưới dạng số. Có 
nhiều dạng cảm biến cho phép làm việc với ánh sáng nhìn thấy hoặc hồng ngoại. Hai loại 
thiết bị biến đổi quang – điện chủ yếu thường được sử dụng là đèn ghi hình điện tử và 
chip CCD (Charge Couple Device – linh kiện ghép điện tích). 
Ống vidicon là đại diện tiêu biểu cho họ đèn ghi hình điện tử được sử dụng tương 
đối rộng rãi trong camera màu cũng như đen trắng. Ống Vidicon có kích thước nhỏ gọn 
(đường kính 18-25 mm, chiều dài 10-12 cm), nhẹ, cấu tạo đơn giản, dễ sử dụng. Đèn 
hình này sử dụng nguyên lý hiệu ứng quang điện 
trong và nguyên lý tìch lũy điện tích. 
Chip CCD là linh kiện bán dẫn có khả năng 
biến đổi năng lượng quang phổ thành tín hiệu 
điện. Thành phần chính của chip CCD là 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
72 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
các tụ điện MOS (Metal-Oxide- Semiconductor). Tụ điện MOS được hình thành 
bởi ba lớp: một má tụ bằng kim loại, chất điện môi nằm giữa là lớp SiO2 và một má tụ 
bằng lớp bán dẫn loại p hoặc n (hình 2.1.5). Hình 2.1.5 Cấu trúc tụ điện MOS 
Một chuỗi tụ điện MOS phân bố đều trên bề mặt chip CCD được biểu diễn trên 
hình 2.1.6a, mỗi tụ điện với bề mặt cảm quang là má bán dẫn sẽ tạo ra một điểm trên hình 
ảnh thu được.Theo phương pháp dịch chuyển điện tích, các chip CCD có thể chia ra 
làm hai loại: CCD dạng chuỗi (một chiều) và dạng ma trận (hai chiều). 
Trên Hình 2.1.6a là cấu trúc chip CCD dạng chuỗi, quá trình ghi (tích điện) và đọc 
được thực hiện tại hai khu vực khác nhau, gọi là miền tích điện và miền nhớ. Hai khu vực 
trên được ngăn cách bởi cổng chuyển dịch. Sau khi kết thúc quá trình tích điện tại các 
phần tử cảm quang, điện tìch sẽ được truyền song song qua cổng chuyển dịch vào thanh 
dịch ngang (không nhạy cảm với ánh sáng) tức miền nhớ. Sau khi cổng chuyển dịch 
đóng lại, quá trình ghi và đọc tại hai miền nói trên sẽ được tiến hành song song. 
Chip CCD sử dụng trong máy quay video thường có cấu trúc ma trận (hình 2.16b). 
Các phần tử cảm quang trong CCD tập hợp thành ma trận hai chiều, quá trình “đọc” tín 
hiệu được thực hiện theo chiều ngang và chiều dọc. Có nhiều cách tổ chức quá trình ghi 
và đọc tín hiệu trong CCD, nhưng phổ biến nhất là phương pháp dịch chuyển từng ảnh. 
Khi sử dụng phương pháp này, trong chip CCD được thiết kế một miền nhớ, không 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
73 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
tiếp xúc với ánh sáng và có diện tìch bằng miền tìch lũy – là ma trận các phần tử cảm 
quang. 
Điện tích thu được tại miền tích lũy được chuyển về miền nhớ. Sau đó, quá trình 
ghi ảnh tại miền tích lũy và đọc ảnh từ miền nhớ vào thanh dịch ngang sẽ được tiến 
hành song song.Từng dòng ảnh được dịch chuyển xuống thanh dịch ngang, sau đó các gói 
điện tìch ứng với các điểm trong dòng ảnh sẽ được đẩy ra lần lượt khỏi thanh dịch. 
Sau khi toàn bộ ảnh trong miền nhớ được đọc ra hết, một ảnh mới từ miền tích lũy sẽ lại 
được chuyển về đây.Với những tính năng vượt trội trước ống ghi hình điện tử cổ điển, 
linh kiện biến đổi - quang điện CCD được sử dụng rất rộng rãi trong công nghệ truyền 
hình và ảnh số. Hầu hết các camera quay video dân dụng và bán chuyên nghiệp (semi-
professional) được thiết kế trên cơ sở chip CCD. 
Bộ nhớ trong và ngoài trong các hệ thống xử lý ảnh số thường có dung lượng rất 
lớn dùng để lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen trắng 
kích thước 1024x1024 điểm, mỗi điểm được mã hóa bằng 8 bits cần bộ nhớ ~1MB. Để 
lưu một ảnh màu không nén, dung lượng bộ nhớ phải tăng lên gấp 3. Bộ nhớ số trong hệ 
thống xử lý ảnh có thể chia làm 3 loại: 1- bộ nhớ đệm trong máy tính để lưu ảnh trong 
quá trình xử lý. Bộ nhớ này phải có khả năng ghi/đọc rất nhanh (ví dụ 25 hình/s); 2- 
bộ nhớ ngoài có tốc độ truy cập tương đối nhanh, dùng để lưu thông tin thường dùng. 
Các bộ nhớ ngoài có thể là ổ cứng, thẻ nhớ flash v.v.. 3- Bộ nhớ dùng để lưu trữ dữ liệu. 
Loại bộ nhớ này thường có dung lượng lớn, tốc độ truy cập không cao. Thông dụng nhất 
là đĩa quang ghi 1 lần (ROM) hoặc nhiều lần (ROM) như đĩa DVD có dung lượng 4.7GB 
(một mặt). Ngoài ra trong hệ thống xử lý ảnh còn sử dụng các thiết bị cho phép lưu ảnh 
trên vật liệu khác như giấy in, giấy in nhiệt, giấy trong, đó có thể là máy in phun, in laser, 
in trên giấy ảnh đặc biệt bằng công nghệ nung nóng v.v. 
Bộ xử lý ảnh chuyên dụng: 
Xử dụng chip xử lý ảnh chuyên dụng, có khả năng thực hiện nhanh các lệnh 
chuyên dùng trong xử lý ảnh. Cho phép thực hiện các quá trình xử lý ảnh như lọc, làm nổi 
đường bao, nén và giải nén video số v.v.. Trong bộ xử lý ảnh thường tìch hợp bộ nhớ đệm 
có tốc độ cao. 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
74 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
Màn hình hiển thị: Hệ thống biến đổi điện - quang hay đèn hình (đen trắng cũng 
như màu) có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của ảnh (tìn hiệu video) 
thành hính ảnh ...  che nhaát thôøi, vaø coù duøng boä maõ hoaù Huffman. 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
96 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
Chƣơng 6: Dữ liệu video 
6.1. Một số khái niệm cơ bản 
 Trính tự video số bao gồm các frame hay ảnh sẽ trính chiếu theo tốc độ cố định. Tốc 
độ chuyển động của frame video được xác định bởi các yếu tố: 
- Tốc độ frame đủ cao để chuyển động trơn tru (trên 25 frame/sec). 
- Tốc độ frame càng cao đòi hỏi băng thông càng lớn để truyền tìn hiệu video. 
- Ảnh trên màn hính mất đi nếu không được làm tươi sau chu kỳ ngắn. Nếu 
khoảng cách làm tươi quá lớn sẽ làm màn hính nhấp nháy (cần trên 50 lần/sec). 
Với tần số này sẽ làm băng thông tăng đáng kể, do vậy, kỹ thuật hiển thị 
interlace được sử dụng. TV sử dụng 2 lần quét dọc (gọi là field) /frame. 
 Trên cơ sở các yếu tố trên, hai tốc độ frame được sử dụng cho TV là: 25 frame (50 
field)/sec cho chuẩn PAL (châu Âu, China, Australia) và 30 frame/s cho chuẩn 
NTSC (Bắc Mỹ và Japan). Chọn 50 và 60 field để phù hợp với tần số điện nguồn 
của các nước tương ứng. 
 Hai đặc trưng chình của video là có chiều thời gian và có lượng dữ liệu khổng lồ. 
Thì dụ, 10 phút video với ảnh 512x512 pixel, depth 24 bit/pixel, tốc độ frame là 30 
frame/s đòi hỏi 13.8 GB bộ nhớ. Do vậy, việc nén video là nhu cầu cần thiết. 
6.2. Nén video 
Để truyền được các chương trính video trên các hệ thống thông tin di động, một 
bài toán đặt ra là phải nén hính ảnh để tiết kiệm băng tần truyền dẫn mà vẫn đảm bảo chất 
lượng hính ảnh. Đây là một yêu cầu đã và đang được nhiều nhà nghiên cứu quan tâm. 
Truyền dẫn số tìn hiệu ảnh động qua các hệ thống vệ tinh đã được nghiên cứu từ năm 
1990, trong đó nén video bằng phương pháp mã hoá đóng vai trò rất quan trọng. Cho đến 
nay, khi các hệ thống thông tin di động 3G và hệ thống NGN ra đời cho phép truyền các 
chương trính video trên đó thí việc nghiên cứu tím ra các giải pháp nén mới càng đòi hỏi 
cấp thiết hơn bao giờ hết. Nhóm chuyên gia về hính ảnh động (MPEG) đã hoàn thiện hai 
bộ tiêu chuẩn về mã hoá video là MPEG -1 và MPEG -2, xác định các phương pháp 
truyền thông tin video số theo các định dạng truyền hính và đa môi trường. Ngày nay 
MPEG -4 đang nhắm vào việc truyền video tốc độ bit rất thấp; còn MPEG -7 đưa ra 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
97 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
chuẩn hoá trong các dịch vụ lưu trữ và phục hồi video. Trong hoàn cảnh mạng thế hệ mới 
NGN và di động thế hệ sau tiếp tục đòi hỏi phải hoàn thiện hơn các thuật toán nén - giải 
tìn hiệu video số với mục đìch làm cho chất lượng hính ảnh tốt hơn, băng tần truyền dẫn 
thấp hơn. 
Nén video số là một quá trính trong đó người ta tím các giải pháp để giảm số lượng 
số liệu biểu thị hính ảnh video để đáp ứng tốc độ bit yêu cầu mà vẫn đáp ứng chất lượng 
video được khôi phục ở phìa thu phải thỏa mãn yêu cầu ứng dụng và độ phức tạp tình 
toán. Nén video có nhiệm vụ rất quan trọng ví lượng dư của số liệu trong các hính ảnh 
nguyên thủy thường lớn hơn nhiều dung lượng mà các thiết bị điện tử ngày nay có thể xử 
lý. 
Ta cũng biết rằng thông tin và số liệu là hai khái niệm khác nhau nhưng liên quan 
chặt chẽ với nhau. Số liệu biểu thị thông tin và chất lượng số liệu có thể đo được. Nội 
dung của số liệu video thường được đo bằng số đơn vị bit; còn thông tin được xác định 
bằng sự nhận biết. Như vậy toàn bộ số liệu biểu thị sự nhận biết, tuy vậy nó cũng có đơn 
vị đo của nó. 
Nén video trong truyền video 
Tốc độ bit hay còn gọi là tốc độ mã hóa là một tham số quan trọng trong nén video 
và thường được biểu thị bằng đơn vị bit/giây. Trong mã hóa nguồn tin, đôi lúc tốc độ bit 
được biểu thị bit trên ký hiệu. Chất lượng hính ảnh được cấu trúc lại ở phìa thu phụ thuộc 
vào ứng dụng ví vậy sẽ có loại nén tổn thất và nén không tổn thất. Trong ứng dụng truyền 
các ảnh động, các chương trính truyền hính thí cho phép một lượng tổn thất nào đó. 
6.3.1. Độ dƣ thừa trong tín hiệu video 
a. Độ dƣ thống kê của ảnh 
Độ dư thống kê có thể được phân thành hai kiểu: độ dư giữa các pixel và độ dư mã 
hóa. Độ dư giữa các pixel có nghĩa là các pixel của một khung ảnh và các pixel của một 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
98 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
nhóm các khung ảnh hoặc video liên tiếp không độc lập thống kê với nhau. Trái lại, chúng 
tương quan với nhau theo mức độ khác nhau. Kiểu tương quan giữa các pixel như vậy 
được coi là độ dư giữa các pixel. Độ dư giữa các pixel có thể được chia thành hai loại: độ 
dư không gian và độ dư thời gian. Độ dư mã hoá là độ dư thống kê liên quan đến các kỹ 
thuật mã hóa 
 Độ dƣ không gian 
Độ dư không gian thể hiện mối tương quan thống kê giữa các pixel trong một khung 
ảnh. Do đó nó còn được gọi là độ dư ngoài khung. Ta biết rằng các giá trị cường độ của 
các pixel thuộc một hàng (hoặc một cột) có hệ số tự tương quan rất cao (gần bằng độ tự 
tương quan cực đại là 1) với các giá trị cường độ của các pixel thuộc chình hàng đó (hoặc 
chình cột đó) nhưng bị dịch đi một pixel. Điều này không hề bất ngờ bởi ví hầu hết các 
giá trị cường độ thay đổi liên tục từ pixel này đến pixel khác trong một khung ảnh, ngoại 
trừ các miền ría. 
 Độ dƣ thời gian 
Độ dư thời gian có liên quan với tương quan thống kê giữa các pixel của các khung 
liên tiếp trong một dãy ảnh hoặc video theo thời gian. Ví vậy nó còn được gọi là độ dư 
giữa các khung. 
 Độ dƣ mã 
Như đã nói ở trên, độ dư giữa các pixel liên quan đến độ tương quan giữa các pixel. 
Điều đó có nghĩa rằng một số thông tin liên quan đến các pixel là thừa. Độ dư về khả 
năng nhín có liên quan đến những thông tin dư thừa về mặt nhín thấy được, tức là với nó 
hệ thống nhín của con người (HVS) không nhạy. Do vậy, rõ ràng cả hai độ dư là độ dư 
giữa các pixel và độ dư khả năng nhín ví một lý do nào đó gắn với một số thông tin chứa 
trong hình ảnh và video. Loại bỏ các độ dư này hoặc sử dụng các mối tương quan này 
bằng cách sử dụng số bit ìt hơn để biểu diễn thông tin sẽ cho ta kết quả nén dữ liệu hính 
ảnh và video. Với nghĩa đó thí độ dư mã là khác, nó không thực hiện việc gí đối với sự dư 
thừa thông tin mà nó thực hiện với việc biểu diễn thông tin, nghĩa là chình việc mã hoá. 
Từ việc nghiên cứu độ dư mã, rõ ràng là chúng ta nên tím kiếm các kỹ thuật mã hiệu quả 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
99 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
hơn để nén dữ liệu hính ảnh và video. Mã Huffman và mã số học là hai kỹ thuật mã hóa 
VLC thường được dùng trong xử lý ảnh và video. 
b. Độ dƣ khả năng nhìn thấy 
Trong khi độ dư giữa các pixel vốn đã có trong số liệu hính ảnh và video, độ dư khả 
năng nhín thấy bắt nguồn từ các đặc trưng về hệ thống nhín của con người. 
Ta biết rằng HVS cảm nhận được thế giới bên ngoài theo một cách thức khá phức tạp. 
Đáp ứng của nó đối với các tác nhân nhín không phải là một hàm tuyến tình theo cường 
độ của một vài thuộc tình vật lý, như độ sáng và màu. Năng lực tri giác của HVS khác 
hẳn với độ nhạy của camera. Trong HVS, thông tin nhín thấy không được cảm nhận như 
nhau, một số thông tin có thể quan trọng hơn một số thông tin khác. Điều đó có nghĩa 
rằng nếu chúng ta sử dụng ìt dữ liệu hơn để biểu diễn những thông tin ìt quan trọng hơn 
về nhín thấy thí khả năng cảm nhận sẽ không bị ảnh hưởng. Theo nghĩa đó, chúng ta thấy 
rằng một số thông tin có liên quan đến thị giác là dư thừa về khả năng nhín thấy. Loại bỏ 
sự dư thừa khả năng nhín thấy này chình là nén dữ liệu. 
6.3.2. Nhu cầu cần thiết nén video 
Những thành tựu đạt được trong công nghệ điện tử - viễn thông - tin học đã tạo 
điều kiện phát triển các kỹ thuật truyền video đáp ứng nhu cầu ngày càng tăng trong các 
ứng dụng cuộc sống hàng ngày như điện thoại video, hội nghị video, truyền hính độ phân 
giải cao... 
Video là một dãy các khung ảnh bao gồm một lượng khổng lồ các số liệu, vì dụ 
mỗi khung video có độ phân giải 288 dòng và 352 pixel trên một giây. Mỗi một màu 
trong ba màu chình (đỏ, xanh, xanh da trời) được biểu thị bằng 1 pixel có 8 bit và thông 
thường tốc độ khung truyền là 30 khung trên một giây để tạo ra video chuyển động liên 
tục. Tốc độ bit yêu cầu là: 288×352×8×3×30 = 72.990.720 bit/s. 
Do đó tỷ số giữa tốc độ bit cần thiết và tốc độ bit có thể lớn nhất khoảng 1289 lần. 
Điều này chứng tỏ rằng chúng ta cần phải nén số liệu video ìt nhất là 1289 lần để truyền 
được trên mạng viễn thông. 
6.3.3. Khái niệm về nén video 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
100 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
Các phương tiện liên lạc video qua kênh thông tin số thế hệ mới yêu cầu rất lớn về 
việc truyền thông tin. Nén video được xem xét ở đây bao hàm việc làm giảm tốc độ bit 
mã tìn hiệu video số mang thông tin nhín được hoặc loại bỏ các phần tử dư thừa trong tìn 
hiệu. Mức độ mà bộ mã hoá làm giảm tốc độ bit được gọi là hiệu suất mã và nghịch đảo 
của hiệu suất mã được gọi là tỷ số nén: 
Nén có làm tổn thất hoặc không làm tổn thất thông tin. Tổn thất thông tin thường 
được tính bằng sai số trung bính bính phương (MSE), sai số tuyệt đối trung bình (MAE) 
hoặc tỷ số tìn hiệu đỉnh trên nhiễu (PSNR): 
6.3.4. Một số kỹ thuật nén video 
Nói chung các hệ thống nén video bao gồm hai phương thức làm giảm độ dư thông 
tin trong các miền không gian và thời gian. Nén không gian và lượng tử hoá hoạt động 
trên một khối ảnh duy nhất bằng cách sử dụng các đặc tình ảnh cục bộ để giảm tốc độ bit. 
Bộ mã hoá không gian cũng có VLC được đặt sau tầng lượng tử hoá. Tầng VLC tạo ra mã 
không tổn thất của khối ảnh đã được lượng tử. Bộ nén miền thời gian sử dụng các phương 
thức dòng quang (thường ở dạng phương pháp ước lượng chuyển động phối hợp khối) để 
nhận dạng và giảm độ dư thời gian. 
Các bộ mã hoá entropy là các bộ mã hoá không tổn thất được sử dụng trong tầng 
VLC của hệ thống nén video. Chúng được sử dụng tốt nhất cho các nguồn tin không nhớ 
và tối thiểu hoá tốc độ bit bằng cách ấn định các mã với độ dài thay đổi cho các giá trị đầu 
vào tuỳ theo hàm mật độ xác suất đầu vào. Các bộ mã dự đoán thìch hợp cho các nguồn 
tin có nhớ. Các bộ mã dự đoán có thể tạo ra hàm mật độ xác suất mới của nguồn với 
phương sai thống kê và entropy nhỏ hơn một cách đáng kể so với nguồn. Sau đó nguồn đã 
biến đổi được đưa vào VLC để giảm tốc độ bit. Mã entropy và mã dự đoán là những 
phương pháp mã tốt trong kỹ thuật nén ảnh. 
Các phép biến đổi khối là kỹ thuật chủ yếu để biểu thị thông tin không gian dưới 
dạng có ìch cao cho việc lượng tử hoá và mã hoá VLC. Các bộ biến đổi khối có thể tạo ra 
độ lợi mã bằng cách đóng gói hầu hết năng lượng khối vào một số ìt hơn các hệ số. Lợi 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
101 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
dụng độ dư thông tin lớn trong miền thời gian, phép bù chuyển động tạo ra các dự đoán 
khung hiện tại trên cơ sở ước lượng chuyển động phối hợp khối giữa các khung ảnh hiện 
tại và trước đó. Nói chung phép bù chuyển động làm tăng một cách đáng kể hiệu suất mã 
video so với mã không gian thuần tuý. Sau đây ta lần lượt xét các giải pháp mã. 
1- Mã entropy và mã dự đoán 
Mã entropy sử dụng rất nhiều khái niệm cơ bản về lý thuyết thống kê và lý thuyết 
thông tin. VLC và mã dự đoán sử dụng mô hính nguồn thông tin, trong đó coi nguồn 
thông tin là một quá trính tạo ra một dãy các ký hiệu từ một tập chữ cái hữu hạn. Các 
nguồn video được tạo ra từ một dãy các khối ảnh, các khối ảnh được tạo ra từ các ký hiệu 
pixel. Số lượng các pixel có thể được tạo ra là , với n là số bit trên một pixel. Bậc mà 
các ký hiệu ảnh được tạo ra phụ thuộc vào việc khối ảnh được sắp xếp hoặc được quét vào 
dãy ký hiệu. Các bộ mã hoá không gian chuyển đổi các đặc trưng thống kê của ảnh gốc 
với mục đìch là ma trận hệ số có thể được quét trong chừng mực nào đó sao cho nguồn 
hoặc dãy các ký hiệu được tạo ra chứa đựng lượng tin ìt nhất. 
2- Mã chuyển đổi khối bằng biến đổi Cosine rời rạc 
3- Lƣợng tử hóa 
Mục đìch của tầng lượng tử trong bộ mã video là tạo ra hính ảnh nén đảm bảo chất 
lượng ảnh phù hợp. Lượng tử vô hướng và lượng tử véctơ là hai loại chủ yếu, chúng tiếp 
tục được phân loại là lượng tử có nhớ hoặc không nhớ; đối xứng hoặc không đối xứng. 
Bộ lượng tử vô hướng đồng nhất là bộ lượng tử cơ bản nhất. Nó xử lý đặc tình vào - 
ra phi tuyến, chia khoảng vào thành các mức ra bằng nhau. Để bộ lượng tử làm giảm tốc 
độ bit một cách hiệu quả thí số lượng các giá trị đầu ra cần phải nhỏ hơn nhiều so với số 
lượng các giá trị đầu vào. Các giá trị tái cấu trúc được trọn tại điểm giữa của các mức đầu 
ra nhằm mục đìch làm giảm thiểu MSE tái cấu trúc khi sai số lượng tử hoá có phân bố 
đều. Các bộ lượng tử trong các bộ mã video theo chuẩn H.261, H.263, MPEG -1 và 
MPEG - 2 gần như là các bộ lượng tử đồng nhất. Chúng có cỡ bước lượng tử cố định, 
ngoại trừ khu vực “vùng chết” (khoảng đầu vào mà đầu ra là không). 
Lượng tử hoá không đồng nhất được sử dụng cho các phân bố đầu vào không đều, vì 
dụ như các nguồn ảnh tự nhiên. Bộ lượng tử mà tạo ra MSE nhỏ nhất đối với phân bố đầu 
Bài giảng Nhập môn Đa phương tiện – Ngành TTĐPT, CNTRT 
102 
Bộ môn Truyền thông Đa phương tiện – Đại học Công nghệ thông tin và Truyền thông 
vào không đều thí sẽ có các bước không đều. So với bộ lượng tử đồng nhất thí bộ lượng 
tử không đồng nhất có hiệu năng MSE tốt hơn một cách đáng kể khi số bước lượng tử 
tăng lên. Điều này làm giảm đến mức tối thiểu tổng sai số tuyệt đối trong mỗi bước lượng 
tử dựa vào phân bố đầu vào. 
4- Bù và ƣớc lƣợng chuyển động 
Kỹ thuật bù chuyển động được đề xuất từ những năm 1960 và được sử dụng để nâng 
cao hiệu suất của các bộ nén video. Các bộ mã video bù chuyển động được thực hiện theo 
ba giai đoạn: 
- Giai đoạn 1: Ước lượng chuyển động của mục tiêu (ước lượng chuyển động) giữa 
khung tái cấu trúc trước đó và khung hiện tại. 
- Giai đoạn 2: Tạo ra dự đoán khung hiện tại (bù chuyển động) bằng cách sử dụng 
các ước lượng chuyển động và khung tái cấu trúc trước đó. 
- Giai đoạn 3: Mã hoá vi sai dự đoán và khung thực hiện tại như là sai số dự đoán 
Ước lượng và bù chuyển động là các kỹ thuật phổ biến được dùng để mã hoá về mặt 
thời gian của tìn hiệu video. Các kỹ thuật bù chuyển động khối và ước lượng chuyển động 
được sử dụng trong các hệ thống nén video có khả năng làm giảm rất lớn tốc độ bit của 
tìn hiệu. Độ dư giữa các khung chứa trong miền thời gian của dãy ảnh số là lý do cho khả 
năng nén tìn hiệu mà các bộ mã hoá video có thể đạt được. Thuật toán này người ta 
thường dựa vào nền tĩnh và sự chuyển động của các ảnh gần. Trong khoảng thời gian 
ngắn, các dãy ảnh có thể được miêu tả bằng một nền tĩnh có các vật thể chuyển động 
trong ảnh gần. Nếu nền không thay đổi giữa hai khung thí hiệu của chúng bằng 0 và hai 
khung có thể được mã hoá thành một. Do đó tỷ lệ nén tăng gấp hai lần so với nén không 
gian trong khung thứ nhất. Nhín chung, các nền không thay đổi hoặc tĩnh có thể cho thêm 
độ lợi mã hoá. 

File đính kèm:

  • pdfgiao_trinh_nhap_mon_da_phuong_tien_phan_2.pdf