Phương pháp triệt nhiễu tiếng nói kết hợp kỹ thuật trừ phổ và kỹ thuật mmse trên miền Wavelet

Mô hình triệt nhiễu kết hợp

Phương pháp trừ phổ ước lượng phổ nhiễu trên toàn bộ khung tiếng nói. Phương pháp

này cho hiệu quả triệt nhiễu cao khi chọn được mức phổ sàn thực nghiệm gần với phổ nhiễu nền

nhưng lại gây méo tín hiệu do sai số phổ được ước lượng và phổ gốc sinh ra thành phần nhiễu

“musical noise” [5].

Phương pháp MMSE ước lượng ngưỡng nhiễu đối với từng hệ số phân rã trong khung

nên giảm thiểu sai số phổ dẫn tới không sinh ra thành phần nhiễu “musical noise”. Tuy nhiên

các kết quả thực nghiệm trong [5, 7] cho thấy hiệu quả triệt nhiễu của phương pháp này không

cao so với phương pháp trừ phổ và phương pháp triệt nhiễu bằng Wavelet của Dohono đối với

trường hợp nhiễu có cường độ lớn (PSNR của tín hiệu lẫn nhiễu nhỏ).

Thành phần nhiễu “musical noise” do sai số phổ sinh ra chủ yếu ở các thành phần tần số

cao, tức là các thành phần chi tiết trên miền Wavelet, do vậy hệ thống triệt nhiễu kết hợp được

xây dựng trên ý tưởng áp dụng phương pháp trừ phổ với thành phần xấp xỉ và áp dụng phương

pháp MMSE với các thành phần chi tiết (hình 2).

pdf 5 trang kimcuc 5720
Bạn đang xem tài liệu "Phương pháp triệt nhiễu tiếng nói kết hợp kỹ thuật trừ phổ và kỹ thuật mmse trên miền Wavelet", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phương pháp triệt nhiễu tiếng nói kết hợp kỹ thuật trừ phổ và kỹ thuật mmse trên miền Wavelet

Phương pháp triệt nhiễu tiếng nói kết hợp kỹ thuật trừ phổ và kỹ thuật mmse trên miền Wavelet
T¹p chÝ Khoa häc & C«ng nghÖ - Sè 1(45) Tập 2/N¨m 2008 
 90 
PHƯƠNG PHÁP TRIỆT NHIỄU TIẾNG NÓI KẾT HỢP KỸ THUẬT 
TRỪ PHỔ VÀ KỸ THUẬT MMSE TRÊN MIỀN WAVELET 
Vũ Ngọc Phàn (Viện Công nghệ thông tin - Viện KHCN Việt Nam)- 
Đỗ Huy Khôi - Phùng Trung Nghĩa (Khoa Công nghệ thông tin - ĐH Thái Nguyên) 
1. Tổng quan về triệt nhiễu tín hiệu tiếng nói 
Nhiễu ảnh hưởng nhiều đến hiệu quả xử lý tín hiệu. Vì vậy, triệt nhiễu và nâng cao chất 
lượng tín hiệu là bước quan trọng trong các hệ thống các hệ thống xử lý tín hiệu thời gian thực [3]. 
Mô hình chung của tín hiệu có nhiễu là: 
, 0,.., 1k k kx s n k K= + = − (1) 
Trong đó sk là tín hiệu tiếng nói sạch, nk là nguồn nhiễu độc lập với phương sai 
2( 1)k nσ σ = (giả sử nk là nhiễu trắng). 
Gọi sˆ là giá trị ước lượng của tín hiệu tiếng nói sạch. Mục đích của các phương pháp 
triệt nhiễu tín hiệu tiếng nói là tối thiểu sai số trung bình phương 2ˆ(| , | )E s s 
1
2 2
k k
0
ˆ ˆs - s (s - s )
K
k
E E
−
=
  =
  ∑ (2) 
2. Phương pháp trừ phổ 
Ý tưởng chung của phương pháp trừ phổ [1, 5] là chọn một mức phổ sàn tương ứng với 
phổ của nhiễu nền và tách ra khỏi phổ tín hiệu lẫn nhiễu. Giả thiết nhiễu nk là quá trình ngẫu nhiên 
dừng trong khoảng thời gian một khung tiếng nói và không tương quan với tín hiệu tiếng nói. 
Từ (1), sau khi cửa sổ hoá ta được: 
xw(k) = sw(k) + nw(k) (3) 
Phổ của tín hiệu lẫn nhiễu là 
2 2 2 * *| ( ) | | ( ) | | ( ) | ( ). ( ) ( ). ( )w w w w w w wX w S w N w S w N w S w N w= + + + (4) 
Nếu chúng ta cho rằng n(k) có trung bình bằng 0 và không tương quan với s(k) thì 
* *( ). ( ) ( ). ( )w w w wS w N w S w N w+ tiến tới 0. Do vậy ta có : 
2 2 2| ( ) | | ( ) | | ( ) |S w X w E N w = −   (5) 
2
2 2
2
| ( ) || ( ) | | ( ) | 1 ( ) |
E N w
S w X w
X w
    = −
 
 
 (6) 
2 2| ( ) | | ( ) | . ( )S w X w G w= (7) 
Gọi G(w) là hệ số trọng số phổ. Áp dụng biến đổi Wiener và đơn giản hóa bằng hàm 
biến đổi trọng số theo [1] ta có: 
T¹p chÝ Khoa häc & C«ng nghÖ - Sè 1(45) Tập 2/N¨m 2008 
 91
G = Max ( )1 ,( )
PSD
PSD
N w
X w
α β −  
 
 (8) 
Với α là hệ số ước lượng trên và β là sàn phổ được chọn tương ứng. 
3. Phương pháp ước lượng trung bình phương tối thiểu MMSE của Ephraim/Malah 
Trong phương pháp MMSE của Ephraim/Malah [7], các thành phần phổ của tiếng nói và 
nhiễu được mô hình thành các biến ngẫu nhiên Gaussian. 
Phân khung băng con tiếng nói thứ i thành các khung có độ dài bằng nhau. 
Ngưỡng nhiễu ước lượng trong khung thứ p và băng con thứ i là ,i pλ được xác định theo 
Jansen [4]. 
( )postimR và ( )prioriimR là các tỉ lệ hệ số trên ngưỡng CTR (Cofficient to Thershold Ratio) 
tiền nghiệm và hậu nghiệm: 
( )priori | |ii mm i
m
cR λ= (9) 
Các ngưỡng nhiễu đối với từng hệ số i
m
c là i
m
λ được ước lượng giống nhau trong từng 
khung. Nói cách khác trong khung p i
m
λ = ,i pλ . 
CTR hậu nghiệm tương ứng 
( )post i priorimˆ| | (1 ) ax[0,(R ) -1]ii mm i
m
cR mα αλ= + − (10) 
Với α là một hệ số có thể thay đổi 0 < α <1. Với CTR tiền nghiệm và hậu nghiệm xác 
định như trên ta có công thức biểu diễn bộ lọc đặt ngưỡng mềm Ephraim/Malah: 
( ) ( )1[ ]
1 ( ) ( ) 1 ( )
i post i post
i m m
m i post i priori i post
m m m
R RH
R R R
= +
+ +
 (11) 
Áp dụng bộ lọc này cho các hệ số phân rã cim với từng bank i, các hệ số phân ra đã được 
triệt nhiễu được tính như sau: 
ˆ
.
i i i
m m mC H C= (12) 
4. Phương pháp kết hợp kỹ thuật trừ phổ và kỹ thuật MMSE trên miền Wavelet 
4.1 Biến đổi Wavelet rời rạc 
DWT được xây dung dựa trên cấu trúc đa phân giải MRA [6]. Tín hiệu nguyên thủy S đi 
qua 2 bộ lọc có đặc tính bù nhau và phân tách thành 2 tín hiệu, cA là các hệ số xấp xỉ, cD là các 
hệ số chi tiết. 
Quá trình phân tách có thể được lặp lại, với xấp xỉ hoàn toàn được tách ra, do đó một tín 
hiệu được tách thành nhiều thành phần phân giải thấp hơn. Nó được gọi là cây phân tách 
Wavelet. 
T¹p chÝ Khoa häc & C«ng nghÖ - Sè 1(45) Tập 2/N¨m 2008 
 92 
Hình 1. Phân tích Wavelet rời rạc tiếng nói 
4.2 Mô hình triệt nhiễu kết hợp 
Phương pháp trừ phổ ước lượng phổ nhiễu trên toàn bộ khung tiếng nói. Phương pháp 
này cho hiệu quả triệt nhiễu cao khi chọn được mức phổ sàn thực nghiệm gần với phổ nhiễu nền 
nhưng lại gây méo tín hiệu do sai số phổ được ước lượng và phổ gốc sinh ra thành phần nhiễu 
“musical noise” [5]. 
Phương pháp MMSE ước lượng ngưỡng nhiễu đối với từng hệ số phân rã trong khung 
nên giảm thiểu sai số phổ dẫn tới không sinh ra thành phần nhiễu “musical noise”. Tuy nhiên 
các kết quả thực nghiệm trong [5, 7] cho thấy hiệu quả triệt nhiễu của phương pháp này không 
cao so với phương pháp trừ phổ và phương pháp triệt nhiễu bằng Wavelet của Dohono đối với 
trường hợp nhiễu có cường độ lớn (PSNR của tín hiệu lẫn nhiễu nhỏ). 
Thành phần nhiễu “musical noise” do sai số phổ sinh ra chủ yếu ở các thành phần tần số 
cao, tức là các thành phần chi tiết trên miền Wavelet, do vậy hệ thống triệt nhiễu kết hợp được 
xây dựng trên ý tưởng áp dụng phương pháp trừ phổ với thành phần xấp xỉ và áp dụng phương 
pháp MMSE với các thành phần chi tiết (hình 2). 
4.3 Các tham số thực nghiệm 
Giá trị phổ sàn trên α = 0.9, sàn dưới β = 0.5 ứng với khoảng có tiếng nói, α = 1.2, β = 
0.1 ứng với khoảng lặng [1]. DWT được thực hiện với thuật toán FWT, Wavelet mẹ được chọn 
là Deubechies 8, số mức phân rã là 3. 
Hình 2. Kỹ thuật triệt nhiễu kết hợp kỹ thuật trừ phổ và MMSE trên miền DWT 
Tiếng nói có 
nhiễu 
Trừ phổ 
MMSE DWT 
cA cAc 
cD cDc 
Tiếng nói 
triệt nhiễu IDWT 
Các hệ số 
xấp xỉ 
Các hệ số 
chi tiết 
Các hệ số 
xấp xỉ được 
triệt nhiễu 
Các hệ số chi tiết 
được triệt nhiễu 
h 
g 
↓2 
↓2 
Tiếng nói gốc 
h' 
g' 
↑2 
↑2 
Tiếng nói tái tạo 
DWT IDWT 
cA 
cD 
Các hệ số xấp xỉ 
Các hệ số chi tiết 
T¹p chÝ Khoa häc & C«ng nghÖ - Sè 1(45) Tập 2/N¨m 2008 
 93
5. Kết quả triệt nhiễu thực nghiệm trên MATLAB 
Chúng tôi đã thử nghiệm hệ thống triệt nhiễu đề nghị với đầu vào là tiếng nói tiếng nói 
sạch cộng với nhiễu Gauss trắng nhân tạo. Phương pháp chung để xác định và đánh giá hiệu quả 
triệt nhiễu của các phương pháp triệt nhiễu trong [2, 4, 5, 7] là thông qua giá trị PSNR được xác 
định như sau: 
2
i i
1
1
ˆ( )
N
i
MSE S S
N
=
= −∑ (13) 
2
i
10
[max(S )]10log
MSE
PSNR = (14) 
iS là tín hiệu nhiễu tại thời gian i còn ˆiS là tín hiệu đã triệt nhiễu tại thời gian i. 
Để so sánh hiệu quả của phương pháp đề xuất với các phương pháp khác, chúng tôi thử 
nghiệm triệt nhiễu và tính toán các giá trị PSNR của phương pháp trừ phổ, phương pháp MMSE 
của Malah, phương pháp triệt nhiễu Wavelet của Dohono [2] và phương pháp đề xuất. 
Bảng 1. So sánh PSNR của các phương pháp triệt nhiễu 
Tín hiệu nhiễu Phương pháp trừ phổ Phương pháp trung bình 
phương tối thiểu MMSE 
Phương pháp ngưỡng 
toàn cục của Dohono 
Phương pháp kết hợp 
trên miền Wavelet 
47.1320 58.0015 52.6225 55.5868 63.4432 
52.1753 58.4312 54.3736 59.9119 65.6679 
57.4413 59.8643 58.4647 64.1735 67.4762 
62.5753 63.1262 64.6353 69.0072 70.2716 
67.2824 69.7463 71.4373 71.3361 71.9635 
72.2251 72.2601 73.6573 72.8592 73.6253 
Kết quả PSNR tính được với tín hiệu có nhiễu và đã triệt nhiễu được cho trong bảng 1. 
Qua kết quả PSNR nhận được và chất lượng âm thanh kiểm nghiệm trực tiếp ta thấy phương 
pháp đề xuất có kết quả tốt nhất, nhiễu gần như được loại bỏ mà chất lượng tiếng nói giảm 
không đáng kể. Trong thực nghiệm nếu PSNR của tín hiệu lẫn nhiễu nhỏ hơn 20 dB thì cả 3 
phương pháp đều không cho hiệu quả triệt nhiễu đáng kể. Khi PSNR đầu vào nhỏ (40-60 dB) 
phương pháp đề xuất cho kết quả cao hơn hẳn, tuy nhiên khi PSNR tăng dần (> 70 dB) thì sự 
phân biệt của các phương pháp là không đáng kể. 
Hình 3. Hình ảnh âm thanh trước và sau khi triệt nhiễu 
T¹p chÝ Khoa häc & C«ng nghÖ - Sè 1(45) Tập 2/N¨m 2008 
 94 
6. Kết luận 
Dựa trên các kết quả nghiên cứu chúng tôi đánh giá phương pháp triệt nhiễu kết hợp kỹ 
thuật trừ phổ và kỹ thuật MMSE của Ephraim/Malah trên miền Wavelet là một kỹ thuật triệt 
nhiễu hiệu quả và có thể áp dụng trong khối tiền xử lý của các hệ thống xử lý tiếng nói thời gian 
thực như mã hóa, nhận dạng tiếng nói thời gian thực  
Tóm tắt 
Báo cáo này trình bày phương pháp triệt nhiễu nâng cao chất lượng tiếng nói kết hợp kỹ 
thuật trừ phổ và kỹ thuật ước lượng trung bình phương tối thiểu MMSE của Ephraim/Malah trên 
miền Wavelet rời rạc. Các kết quả mô phỏng cho thấy tiếng nói có nhiễu được triệt nhiễu bằng 
phương pháp đề xuất có SNR cao hơn các phương pháp trừ phổ, phương pháp MMSE và 
phương pháp Wavelet của Dohono. 
Summary 
THE SPECTRAL SUBTRACTION AND MMSE COMBINING METHOD 
IN THE WAVELET DOMAIN 
In this paper, we present a speech denoising approach using spectral subtraction and 
MMSE methods on discrete Wavelet domain. The simulation results show that the noisy speech 
denoised by our proposed method has higher SNR than the spectral subtraction denoising, the 
MMSE denoising and the Wavelet denoising of Dohono. 
Keyword: Wavelet, denoising, speech processing 
Tài liệu tham khảo 
[1] Hà Đình Dũng, Nguyễn Kim Quang (2003), “Xây dựng bộ giảm nhiễu sử dụng phương pháp trừ phổ 
ứng dụng trong hệ thống nhận dạng tiếng nói”, Báo cáo hội thảo quốc gia CNTT, Thái Nguyên. 
[2] Donoho, D. L (1995), “Denoising via soft thresholding'', IEEE Trans. Information Theory. 
[3] Gibert Strang, Truong Nguyen (1996), Wavelet and Filter Banks, Weliesley- Cambridge Press, The 
United States of America . 
[4] Jansen M.(2001), Noise Reduction by Wavelet Thresholding, Springer-Verlag, New York . 
[5] S.F. Boll, “Suppression of Acoustic Noise in Speech Using Spectral Subtraction”, IEEE Transactions 
on Acoustics, Speech, and Signal Processing, vol. 27, April 1979, pp. 113-120. 
[6] Stéphane Mallat (1999), A Wavelet Tour of Signal Processing, Second Edition. 
[7] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean square error log-spectral 
amplitude estimator” IEEE Trans. on ASSP, 1985, pp. 443-445. 

File đính kèm:

  • pdfphuong_phap_triet_nhieu_tieng_noi_ket_hop_ky_thuat_tru_pho_v.pdf