Nghiên cứu đề xuất thuật toán giả lập âm thanh 3D dùng hai nguồn phát âm

Bài báo đưa ra đề xuất xây dựng thuật toán và chương trình có tác

dụng giả lập âm thanh 3D từ hai nguồn phát âm. Chương trình giả lập sự lan

truyền của một nguồn âm thanh từ một hướng bất kỳ trong không gian 3D sử dụng 2

loa nằm ở phía trước của người nghe, bằng cách sử dụng phép đo dữ liệu hàm

HRTF để giả lập sự lan truyền của âm thanh và sau đó loại bỏ các hiệu ứng không

gian khác của loa. Chương trình được phát triển trên ngôn ngữ lập trình Python và

dựa trên 4 bước: định hướng tín hiệu âm thanh, phát hiện độ cao của nguồn, xây

dựng hàm truyền đạt âm thanh và cuối cùng là khử nhiễu xuyên âm của loa.

pdf 8 trang kimcuc 8920
Bạn đang xem tài liệu "Nghiên cứu đề xuất thuật toán giả lập âm thanh 3D dùng hai nguồn phát âm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Nghiên cứu đề xuất thuật toán giả lập âm thanh 3D dùng hai nguồn phát âm

Nghiên cứu đề xuất thuật toán giả lập âm thanh 3D dùng hai nguồn phát âm
Kỹ thuật điều khiển & Điện tử 
L. C. Duẩn, N. N. Minh, N. Q. Uy, “Nghiên cứu đề xuất thuật toán hai nguồn phát âm.” 78 
NGHIÊN CỨU ĐỀ XUẤT THUẬT TOÁN GIẢ LẬP ÂM THANH 3D 
DÙNG HAI NGUỒN PHÁT ÂM 
Lương Công Duẩn*, Nguyễn Ngọc Minh, Nguyễn Quốc Uy 
Tóm tắt: Bài báo đưa ra đề xuất xây dựng thuật toán và chương trình có tác 
dụng giả lập âm thanh 3D từ hai nguồn phát âm. Chương trình giả lập sự lan 
truyền của một nguồn âm thanh từ một hướng bất kỳ trong không gian 3D sử dụng 2 
loa nằm ở phía trước của người nghe, bằng cách sử dụng phép đo dữ liệu hàm 
HRTF để giả lập sự lan truyền của âm thanh và sau đó loại bỏ các hiệu ứng không 
gian khác của loa. Chương trình được phát triển trên ngôn ngữ lập trình Python và 
dựa trên 4 bước: định hướng tín hiệu âm thanh, phát hiện độ cao của nguồn, xây 
dựng hàm truyền đạt âm thanh và cuối cùng là khử nhiễu xuyên âm của loa. 
Từ khóa: DSP, Xử lý âm thanh, Giả lập, Âm thanh 3D, Biến đổi Fourier. 
1. GIỚI THIỆU CHUNG 
Hiệu ứng âm thanh 3D là một nhóm các hiệu ứng âm thanh và các dao động âm 
thanh được tạo ra bởi các loa stereo, loa âm thanh vòm, loa mảng, hoặc tai nghe, 
giúp con người không chỉ cảm nhận được nguồn âm thanh đến từ trước mặt mà nó 
sẽ tạo ra nguồn âm thanh sẽ đến từ bất cứ nơi nào trong không gian ba chiều, bao 
gồm cả phía sau, phía trên và phía dưới người nghe. Về bản chất, tác động của âm 
thanh 3D lên tai cũng giống như tác động của hình ảnh 3D đối với mắt. Để kiểm 
soát cảm giác của người nghe một cách tích cực thì đòi hỏi cần phải kiểm soát tất 
cả các khía cạnh về sự cảm nhận của con người đối với âm thanh. Hoạt động của 
hệ thống âm thanh 3D sẽ báo trước những thay đổi về các thuộc tính trong không 
gian âm thanh của người nghe. 
Hình 1. Các thuộc tính liên quan đến sự cảm nhận âm thanh trong không gian. 
Trong các nghiên cứu tâm lý trước đây, các điểm tham chiếu được dùng cho 
việc mô tả khoảng cách và vị trí của âm thanh ảo (Sound image) được đặt tại điểm 
gốc giữa hai tai, gần mắt và ở điểm trung tâm của đầu. Ngoài ra, cần xác định một 
nguồn âm thanh ảo, điều đó cũng có nghĩa khoảng cách tuyến tính giữa nguồn âm 
thanh ảo đó và người nghe là khoảng cách thấy được. 
Hình 1 đưa ra hai quy ước cho việc mô tả góc cảm nhận đối với một nguồn âm 
ảo gồm góc phương vị và độ cao. Góc phương vị là 00 thì đây là điểm trực tiếp trên 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 79
đầu của người nghe, dọc theo đường chia đôi góc từ điểm xuất phát. Trong một số 
hệ thống, góc phương vị được miêu tả như chiều quay theo kim đồng hồ, góc quay 
từ 00 đến 3600 dọc theo vòng tròn góc phương vị. Việc miêu tả góc phương vị và 
độ cao có thể xác định vị trí của nguồn âm xung quanh bề mặt hình cầu trên đầu 
người nghe. 
Yếu tố cần nghiên cứu cuối cùng trong không gian âm thanh này, chủ yếu đề 
cập đến những tác động ảnh hưởng của âm vang được sinh ra từ sự lặp đi lặp lại 
của nguồn âm xuất phát từ bề mặt khoang kín (hình 2). S là Nguồn âm, E là Môi 
trường nghiên cứ, L là vị trí tai nghe. 
Hình 2. Mô hình 2 chiều đơn giản. 
Các phản xạ âm từ bề mặt của khoang kín hoặc môi trường bên ngoài mà ảnh 
hưởng của nó được thể hiện qua tập hợp các nguồn âm thứ cấp, có thể gây ảnh 
hưởng rất nhiều đến cách cảm nhận nguồn âm. 
2. ĐỊNH VỊ ÂM THANH TRONG KHÔNG GIAN ÂM THANH ẢO VÀ 
TỔNG HỢP PHA CỦA HÀM TRUYỀN ĐẠT 
Định vị âm thanh trong không gian ảo: Một giả định cơ bản trong việc tạo ra 
một không gian âm thanh ảo là nếu các sóng âm thanh xuất hiện tại màng nhĩ của 
người nghe giống với khi đang sử dụng tai nghe, thì những trải nghiệm của người 
nghe cũng phải được như vậy. Sử dụng Head Related Transfer Function (HRTF), 
âm thanh có thể được định vị trong không gian bằng cách sử dụng những nguồn tín 
hiệu sau: x1(t) là tín hiệu đến từ loa, y1(t) là tín hiệu nhận được từ một micro bên 
trong màng nhĩ của người nghe, x2(t) là tín hiệu đến từ tai nghe và y2(t) là phản ứng 
của micro bên trong màng nhĩ của người nghe. Mục đích của không gian âm thanh 
ảo là chọn được x2(t) sao cho y2(t) = y1(t). Áp dụng biến đổi Fourier với các tín 
hiệu này, chúng ta có 2 phương trình sau đây: 
Y1=X1LFM và Y2=X2HM (1) 
Trong đó: 
L: Hàm truyền đạt của loa trong trường tự do 
F: Hàm truyền đạt vào đầu (hàm truyền đạt) 
M: Hàm truyền đạt của micro 
H: Hàm truyền đạt từ headphone – màng nhĩ. 
Đặt Y1 = Y2 , ta có: 
H
LF
X
X
H
LF
XX
HMXLFMX
1
2
12
21
 (2) 
Kỹ thuật điều khiển & Điện tử 
L. C. Duẩn, N. N. Minh, N. Q. Uy, “Nghiên cứu đề xuất thuật toán hai nguồn phát âm.” 80 
Vậy hàm truyền đạt cần có: 
H
LF
T (3) 
Nếu x1(t) vượt qua được bộ lọc này và x2(t) được phát trên tai nghe, thì nó sẽ 
sinh ra các tín hiệu tương tự ở màng nhĩ. Do các bộ lọc chỉ áp dụng cho một tai, 
nên một số khác sẽ phải lấy cho tai khác. Quá trình này được lặp lại tại nhiều nơi 
trong không gian ảo để tạo ra một loạt các hàm HRTF cho mỗi vị trí có thể tái tạo 
lại mà vẫn đảm bảo rằng các điều kiện lấy mẫu tuân thủ theo định luật Nyquist. 
Một pha HRTF có thẻ được mô tả bởi một hệ số tỉ lệ Interaural Time Difference 
(ITD). Được định lượng bởi dữ liệu nhân trắc học của một cá nhân đưa ra như một 
nguồn tham khảo. Đối với những trường hợp chung, chúng ta coi β như một vector 
rải rác. 
1 2[ , ,...., ]
T
N    (4) 
 β đại diện cho các tính năng nhân trắc học của đối tượng như là một phép xếp 
chồng tuyến tính của tính năng nhân trắc học từ việc dữ liệu thử nghiệm (y' = 
βT X). 
2
,
1 1 1
arg min ( (y ) )
A N N
a n n a n
a n n
X   
    (5) 
Từ đó, hệ số tỉ lệ ITD H’ được tính là: 
'
1
N
n n
n
H H
  (6) 
Khi những hệ số tỉ lệ ITD cho tất cả mọi người trong tập dữ liệu bị xếp chồng 
lên nhau trong một vector H ∈ RN (RN là vecto số thực N chiều), thì giá trị nH 
tương ứng với hệ số tỉ lệ của người thứ n. 
3. XÂY DỰNG ỨNG DỤNG XỬ LÍ ÂM THANH 3D SỬ DỤNG HAI 
NGUỒN PHÁT ÂM 
Để giả lập âm thanh 3D, quy trình gồm 4 bước được đề xuất: định hướng tín 
hiệu âm thanh, phát hiện độ cao của nguồn, xây dựng hàm truyền đạt âm thanh và 
cuối cùng là khử nhiễu xuyên âm của loa. 
 Định hướng tín hiệu sử dụng Interaural Intensity Difference (IID) và Interaural 
Time Difference (ITD). 
 Phát hiện độ cao: Các vị trí của một nguồn âm thanh ở bên trên, bên dưới, hoặc 
phía sau người nghe cũng có thể được định vị nhờ thành phần vành tai, phần 
bên ngoài của tai. Việc này kết hợp với các dấu hiệu IID và ITD kể trên, cho 
phép phát hiện và dự báo âm thanh từ mọi góc độ. 
 Hàm truyền đạt HRTF: là một bộ lọc giống với các đặc tính suy giảm tần số âm 
thanh khi đi qua đầu, vang vọng từ vai và đi qua vành tai. Mỗi HRTF cung cấp 
một đáp ứng xung cho kênh trái và phải, mà chúng ta sẽ ký hiệu là HL và HR 
tương ứng. 
 Khử nhiễu xuyên âm của loa nhờ sử dụng một bộ lọc head-shadowing (che 
chắn đầu) và kết hợp với một số phương pháp khuếch đại. 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 81
Thuật toán được đề xuất như trong các sơ đồ dưới đây. Sơ đồ chung của quá 
trình được trình bày trong hình 3. 
Setangles là một hàm chức năng nhận phương vị, độ cao tùy ý và trả về độ cao 
và góc phương vị gần nhất với đầu vào của một tập tin đã tồn tại. Thuật toán cho 
Setangles được miêu tả trong hình 4 và 5. 
Sau khi đọc được vị trí các nguồn phát, sử dụng một phép biến đổi Fourier để 
chiếu tín hiệu đáp ứng xung và miền tần số. Sau đó, các tín hiệu bên trái và bên 
phải được tạo ra bằng cách nhân lần lượt tín hiệu miền tần số với các hàm truyền 
đạt bên trái và bên phải. Phép biến đổi Fourier ngược được sử dụng để trả lại tín 
hiệu trái và phải, mà chúng sẽ xuất hiện ngay từ độ cao và góc phương vị được chỉ 
định. Mô hình tiếp nhận âm thanh từ 2 phía được thể hiện trong hình 6. 
Kể từ khi dùng HRTF để xác định vị trí nguồn ở bên 
loa trái và loa phải, chúng ta có thể lấy được phương 
trình cho tín hiệu nhận được ở tai và sau đó loại bỏ 
những hiệu ứng không gian của việc sử dụng loa thay 
vì tai nghe. Các bước thực hiện thuật toán Speaker 
Transform được mô tả trong hình 7. Đầu tiên, đặt HLL, 
HLR là hàm truyền đạt đến tai trái của HRTF của loa 
bên trái, phải. Chúng sẽ đến từ HRTF với góc phương 
vị θL, θR và độ cao 0. Tương tự thì HRL, HRR sẽ là hàm 
truyền đạt của tai phải cho vị trí 2 loa. Nếu khoảng 
cách giữa tai trái và tai phải là không đáng kể so với 
khoảng cách từ trung tâm của loa “d”, các tín hiệu ở 
bên tai trái và phải EL, ER có thể được tính bằng hệ 
phương trình sau: 
L LL L LR R
R RL L RR R
E H S H S
E H S H S
 (7) 
Bây giờ, chúng ta lấy nghịch đảo của ma trận 
HRTF: 
1L RR RL L
R LR LL RLL RR LR Rl
S H H E
S H H EH H H H
 (8) 
Sử dụng phương trình này, ta có thể áp dụng ma trận (8) cho bất kỳ tín hiệu nào 
được thiết kế cho tai nghe [EL ER]
T để lấy được tín hiệu cho hai loa. Phương pháp 
này không yêu cầu θL và θR phải giống nhau. Chú ý rằng HRTF sẽ ngầm chiếm các 
mức tăng và sự trễ các yếu tố trong phương trình Transaural sau đây: 
 1 2 2 2
1 ( )1
1 ( ) ( ) 1
d
d d
gH z z
A z
g H z z gH z z
 (9) 
Giản đồ thời gian tín hiệu âm thanh sau khi xử lý 3D được mô tả trong hình 7 và 
8. Đối với tín hiệu đã qua xử lý 3D, trên giản đồ thời gian chúng ta có thể thấy, tín 
hiệu âm thanh ở 2 kênh trái và phải có sự khác nhau về pha và biên độ, điều này 
phù hợp với việc cảm nhận thực tế của tai người là âm thanh đi từ trái qua phải 
theo các mức độ to nhỏ khác nhau. 
Start
Open()
Path()
Project()
Speaker_tranform()
Make_Stereo()
Hình 3. Sơ đồ chung. 
Kỹ thuật điều khiển & Điện tử 
L. C. Duẩn, N. N. Minh, N. Q. Uy, “Nghiên cứu đề xuất thuật toán hai nguồn phát âm.” 82 
Hình 4. Thuật toán Stangles – Phần 1. 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 83
Hình 5. Thuật toán Stangles – Phần 2. 
Kỹ thuật điều khiển & Điện tử 
L. C. Duẩn, N. N. Minh, N. Q. Uy, “Nghiên cứu đề xuất thuật toán hai nguồn phát âm.” 84 
,L RS S : Nguồn âm. 
d : Khoảng cách từ tai đến trung tâm 
loa. 
,L R  : Góc nghe của tai tới hai 
nguồn âm. 
Hình 6. Mô hình tiếp nhận âm thanh từ 2 phía. 
Giản đồ thời gian tín hiệu âm thanh sau khi xử lý 3D được mô tả trong hình 8. 
Đối với tín hiệu đã qua xử lý 3D, trên giản đồ thời gian chúng ta có thể thấy, tín 
hiệu âm thanh ở 2 kênh trái và phải có sự khác nhau về pha và biên độ, điều này 
phù hợp với việc cảm nhận thực tế của tai người là âm thanh dường như đi từ trái 
qua phải theo các mức độ to nhỏ khác nhau khiến người nghe cảm nhận một cách 
trung thực nhất. 
Hình 7. Giản đồ thời gian tín hiệu âm thanh thường. 
Hình 8. Giản đồ thời gian tín hiệu âm thanh sau khi xử lý 3D. 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 85
4. KẾT LUẬN 
Bài báo đã đưa ra thuật toán xây dựng phần mềm giả lập âm thanh 3D và xử lý 
âm thanh 3D. Kết quả đạt được của thuật toán đã được thể hiện trên phần mềm. 
Ứng dụng thuật toán này vào thực thế có thể tích hợp công nghệ giả lập âm thanh 
3D trong các bộ xử lý âm thanh chuyên nghiệp, phục vụ đời sống hàng ngày của 
con người cũng như được áp dụng để xử lý âm thanh trong lĩnh vực truyền hình, 
viễn thông. 
TÀI LIỆU THAM KHẢO 
[1]. Begault, D.R., “3D sound for virtual reality and multimedia”, AP 
Professional, 2013. 
[2]. Bosun Xie, “Head-Related Transfer Function and Virtual Auditory Display”, J 
Ross Publishing, 2013. 
[3]. John R. Deller, John H. L. Hassen, and John G.Proakis, “Discrete-Time 
Processing of Speech Signals”, Wiley-IEEE Press, (2000). 
[4]. Francis Rumsey, “Spatial Audio”, CRC Press, 2012. 
[5]. Tashev, Ivan. "HRTF phase synthesis via sparse representation of 
anthropometric features". Information Technology and Applications 
Workshop,San Diego, CA, USA, Conference paper: 1–5, 2014. 
[6]. Bilinski,Piotr; Ahrens, Jens; Thomas, Mark R.P; Tashev, Ivan; Platt,John C. 
"HRTF magnitude synthesis via sparse representation of anthropometric 
features ". IEEE ICASSP, Florence, Italy: 4468–4472, 2014. 
ABSTRACT 
RESEARCH AND SUGGEST 3D AUDIO PROCESSING ALGORITHM USE 
TWO SOUND SOURCE 
 In this paper, an audio processing algorithm to produce elements effecst 
to the sound and 3D sound is proposed. From that, we build an application 
to emulate 3D sound using 2 channels. The results is analyzed and can be 
applied to design 3D sound devices. 
Keywords: DSP, Audio Process, 3D Sound, Sound Simulator, Fourier Transform. 
Nhận bài ngày 01 tháng 9 năm 2016 
Hoàn thiện ngày 01 tháng 11 năm 2016 
Chấp nhận đăng ngày 14 tháng 12 năm 2016 
Địa chỉ: Học viện Công nghệ Bưu chính Viễn thông; 
 * Email: duanlc@ptit.edu.vn 

File đính kèm:

  • pdfnghien_cuu_de_xuat_thuat_toan_gia_lap_am_thanh_3d_dung_hai_n.pdf