Nghiên cứu đề xuất thuật toán giả lập âm thanh 3D dùng hai nguồn phát âm

Bài báo đưa ra đề xuất xây dựng thuật toán và chương trình có tác

dụng giả lập âm thanh 3D từ hai nguồn phát âm. Chương trình giả lập sự lan

truyền của một nguồn âm thanh từ một hướng bất kỳ trong không gian 3D sử dụng 2

loa nằm ở phía trước của người nghe, bằng cách sử dụng phép đo dữ liệu hàm

HRTF để giả lập sự lan truyền của âm thanh và sau đó loại bỏ các hiệu ứng không

gian khác của loa. Chương trình được phát triển trên ngôn ngữ lập trình Python và

dựa trên 4 bước: định hướng tín hiệu âm thanh, phát hiện độ cao của nguồn, xây

dựng hàm truyền đạt âm thanh và cuối cùng là khử nhiễu xuyên âm của loa.

8 trang kimcuc 13780

Download

Bạn đang xem tài liệu "Nghiên cứu đề xuất thuật toán giả lập âm thanh 3D dùng hai nguồn phát âm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Nghiên cứu đề xuất thuật toán giả lập âm thanh 3D dùng hai nguồn phát âm

Kỹ thuật điều khiển & Điện tử
L. C. Duẩn, N. N. Minh, N. Q. Uy, “Nghiên cứu đề xuất thuật toán hai nguồn phát âm.” 78
NGHIÊN CỨU ĐỀ XUẤT THUẬT TOÁN GIẢ LẬP ÂM THANH 3D
DÙNG HAI NGUỒN PHÁT ÂM
Lương Công Duẩn*, Nguyễn Ngọc Minh, Nguyễn Quốc Uy
Tóm tắt: Bài báo đưa ra đề xuất xây dựng thuật toán và chương trình có tác
dụng giả lập âm thanh 3D từ hai nguồn phát âm. Chương trình giả lập sự lan
truyền của một nguồn âm thanh từ một hướng bất kỳ trong không gian 3D sử dụng 2
loa nằm ở phía trước của người nghe, bằng cách sử dụng phép đo dữ liệu hàm
HRTF để giả lập sự lan truyền của âm thanh và sau đó loại bỏ các hiệu ứng không
gian khác của loa. Chương trình được phát triển trên ngôn ngữ lập trình Python và
dựa trên 4 bước: định hướng tín hiệu âm thanh, phát hiện độ cao của nguồn, xây
dựng hàm truyền đạt âm thanh và cuối cùng là khử nhiễu xuyên âm của loa.
Từ khóa: DSP, Xử lý âm thanh, Giả lập, Âm thanh 3D, Biến đổi Fourier.
1. GIỚI THIỆU CHUNG
Hiệu ứng âm thanh 3D là một nhóm các hiệu ứng âm thanh và các dao động âm
thanh được tạo ra bởi các loa stereo, loa âm thanh vòm, loa mảng, hoặc tai nghe,
giúp con người không chỉ cảm nhận được nguồn âm thanh đến từ trước mặt mà nó
sẽ tạo ra nguồn âm thanh sẽ đến từ bất cứ nơi nào trong không gian ba chiều, bao
gồm cả phía sau, phía trên và phía dưới người nghe. Về bản chất, tác động của âm
thanh 3D lên tai cũng giống như tác động của hình ảnh 3D đối với mắt. Để kiểm
soát cảm giác của người nghe một cách tích cực thì đòi hỏi cần phải kiểm soát tất
cả các khía cạnh về sự cảm nhận của con người đối với âm thanh. Hoạt động của
hệ thống âm thanh 3D sẽ báo trước những thay đổi về các thuộc tính trong không
gian âm thanh của người nghe.
Hình 1. Các thuộc tính liên quan đến sự cảm nhận âm thanh trong không gian.
Trong các nghiên cứu tâm lý trước đây, các điểm tham chiếu được dùng cho
việc mô tả khoảng cách và vị trí của âm thanh ảo (Sound image) được đặt tại điểm
gốc giữa hai tai, gần mắt và ở điểm trung tâm của đầu. Ngoài ra, cần xác định một
nguồn âm thanh ảo, điều đó cũng có nghĩa khoảng cách tuyến tính giữa nguồn âm
thanh ảo đó và người nghe là khoảng cách thấy được.
Hình 1 đưa ra hai quy ước cho việc mô tả góc cảm nhận đối với một nguồn âm
ảo gồm góc phương vị và độ cao. Góc phương vị là 00 thì đây là điểm trực tiếp trên
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 79
đầu của người nghe, dọc theo đường chia đôi góc từ điểm xuất phát. Trong một số
hệ thống, góc phương vị được miêu tả như chiều quay theo kim đồng hồ, góc quay
từ 00 đến 3600 dọc theo vòng tròn góc phương vị. Việc miêu tả góc phương vị và
độ cao có thể xác định vị trí của nguồn âm xung quanh bề mặt hình cầu trên đầu
người nghe.
Yếu tố cần nghiên cứu cuối cùng trong không gian âm thanh này, chủ yếu đề
cập đến những tác động ảnh hưởng của âm vang được sinh ra từ sự lặp đi lặp lại
của nguồn âm xuất phát từ bề mặt khoang kín (hình 2). S là Nguồn âm, E là Môi
trường nghiên cứ, L là vị trí tai nghe.
Hình 2. Mô hình 2 chiều đơn giản.
Các phản xạ âm từ bề mặt của khoang kín hoặc môi trường bên ngoài mà ảnh
hưởng của nó được thể hiện qua tập hợp các nguồn âm thứ cấp, có thể gây ảnh
hưởng rất nhiều đến cách cảm nhận nguồn âm.
2. ĐỊNH VỊ ÂM THANH TRONG KHÔNG GIAN ÂM THANH ẢO VÀ
TỔNG HỢP PHA CỦA HÀM TRUYỀN ĐẠT
Định vị âm thanh trong không gian ảo: Một giả định cơ bản trong việc tạo ra
một không gian âm thanh ảo là nếu các sóng âm thanh xuất hiện tại màng nhĩ của
người nghe giống với khi đang sử dụng tai nghe, thì những trải nghiệm của người
nghe cũng phải được như vậy. Sử dụng Head Related Transfer Function (HRTF),
âm thanh có thể được định vị trong không gian bằng cách sử dụng những nguồn tín
hiệu sau: x1(t) là tín hiệu đến từ loa, y1(t) là tín hiệu nhận được từ một micro bên
trong màng nhĩ của người nghe, x2(t) là tín hiệu đến từ tai nghe và y2(t) là phản ứng
của micro bên trong màng nhĩ của người nghe. Mục đích của không gian âm thanh
ảo là chọn được x2(t) sao cho y2(t) = y1(t). Áp dụng biến đổi Fourier với các tín
hiệu này, chúng ta có 2 phương trình sau đây:
Y1=X1LFM và Y2=X2HM (1)
Trong đó:
L: Hàm truyền đạt của loa trong trường tự do
F: Hàm truyền đạt vào đầu (hàm truyền đạt)
M: Hàm truyền đạt của micro
H: Hàm truyền đạt từ headphone – màng nhĩ.
Đặt Y1 = Y2 , ta có:
H
LF
X
X
H
LF
XX
HMXLFMX
1
2
12
21
(2)
Kỹ thuật điều khiển & Điện tử
L. C. Duẩn, N. N. Minh, N. Q. Uy, “Nghiên cứu đề xuất thuật toán hai nguồn phát âm.” 80
Vậy hàm truyền đạt cần có:
H
LF
T (3)
Nếu x1(t) vượt qua được bộ lọc này và x2(t) được phát trên tai nghe, thì nó sẽ
sinh ra các tín hiệu tương tự ở màng nhĩ. Do các bộ lọc chỉ áp dụng cho một tai,
nên một số khác sẽ phải lấy cho tai khác. Quá trình này được lặp lại tại nhiều nơi
trong không gian ảo để tạo ra một loạt các hàm HRTF cho mỗi vị trí có thể tái tạo
lại mà vẫn đảm bảo rằng các điều kiện lấy mẫu tuân thủ theo định luật Nyquist.
Một pha HRTF có thẻ được mô tả bởi một hệ số tỉ lệ Interaural Time Difference
(ITD). Được định lượng bởi dữ liệu nhân trắc học của một cá nhân đưa ra như một
nguồn tham khảo. Đối với những trường hợp chung, chúng ta coi β như một vector
rải rác.
1 2[ , ,...., ]
T
N    (4)
β đại diện cho các tính năng nhân trắc học của đối tượng như là một phép xếp
chồng tuyến tính của tính năng nhân trắc học từ việc dữ liệu thử nghiệm (y' =
βT X).
2
,
1 1 1
arg min ( (y ) )
A N N
a n n a n
a n n
X   
   (5)
Từ đó, hệ số tỉ lệ ITD H’ được tính là:
'
1
N
n n
n
H H
 (6)
Khi những hệ số tỉ lệ ITD cho tất cả mọi người trong tập dữ liệu bị xếp chồng
lên nhau trong một vector H ∈ RN (RN là vecto số thực N chiều), thì giá trị nH
tương ứng với hệ số tỉ lệ của người thứ n.
3. XÂY DỰNG ỨNG DỤNG XỬ LÍ ÂM THANH 3D SỬ DỤNG HAI
NGUỒN PHÁT ÂM
Để giả lập âm thanh 3D, quy trình gồm 4 bước được đề xuất: định hướng tín
hiệu âm thanh, phát hiện độ cao của nguồn, xây dựng hàm truyền đạt âm thanh và
cuối cùng là khử nhiễu xuyên âm của loa.
Định hướng tín hiệu sử dụng Interaural Intensity Difference (IID) và Interaural
Time Difference (ITD).
Phát hiện độ cao: Các vị trí của một nguồn âm thanh ở bên trên, bên dưới, hoặc
phía sau người nghe cũng có thể được định vị nhờ thành phần vành tai, phần
bên ngoài của tai. Việc này kết hợp với các dấu hiệu IID và ITD kể trên, cho
phép phát hiện và dự báo âm thanh từ mọi góc độ.
Hàm truyền đạt HRTF: là một bộ lọc giống với các đặc tính suy giảm tần số âm
thanh khi đi qua đầu, vang vọng từ vai và đi qua vành tai. Mỗi HRTF cung cấp
một đáp ứng xung cho kênh trái và phải, mà chúng ta sẽ ký hiệu là HL và HR
tương ứng.
Khử nhiễu xuyên âm của loa nhờ sử dụng một bộ lọc head-shadowing (che
chắn đầu) và kết hợp với một số phương pháp khuếch đại.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 81
Thuật toán được đề xuất như trong các sơ đồ dưới đây. Sơ đồ chung của quá
trình được trình bày trong hình 3.
Setangles là một hàm chức năng nhận phương vị, độ cao tùy ý và trả về độ cao
và góc phương vị gần nhất với đầu vào của một tập tin đã tồn tại. Thuật toán cho
Setangles được miêu tả trong hình 4 và 5.
Sau khi đọc được vị trí các nguồn phát, sử dụng một phép biến đổi Fourier để
chiếu tín hiệu đáp ứng xung và miền tần số. Sau đó, các tín hiệu bên trái và bên
phải được tạo ra bằng cách nhân lần lượt tín hiệu miền tần số với các hàm truyền
đạt bên trái và bên phải. Phép biến đổi Fourier ngược được sử dụng để trả lại tín
hiệu trái và phải, mà chúng sẽ xuất hiện ngay từ độ cao và góc phương vị được chỉ
định. Mô hình tiếp nhận âm thanh từ 2 phía được thể hiện trong hình 6.
Kể từ khi dùng HRTF để xác định vị trí nguồn ở bên
loa trái và loa phải, chúng ta có thể lấy được phương
trình cho tín hiệu nhận được ở tai và sau đó loại bỏ
những hiệu ứng không gian của việc sử dụng loa thay
vì tai nghe. Các bước thực hiện thuật toán Speaker
Transform được mô tả trong hình 7. Đầu tiên, đặt HLL,
HLR là hàm truyền đạt đến tai trái của HRTF của loa
bên trái, phải. Chúng sẽ đến từ HRTF với góc phương
vị θL, θR và độ cao 0. Tương tự thì HRL, HRR sẽ là hàm
truyền đạt của tai phải cho vị trí 2 loa. Nếu khoảng
cách giữa tai trái và tai phải là không đáng kể so với
khoảng cách từ trung tâm của loa “d”, các tín hiệu ở
bên tai trái và phải EL, ER có thể được tính bằng hệ
phương trình sau:
L LL L LR R
R RL L RR R
E H S H S
E H S H S
(7)
Bây giờ, chúng ta lấy nghịch đảo của ma trận
HRTF:
1L RR RL L
R LR LL RLL RR LR Rl
S H H E
S H H EH H H H
(8)
Sử dụng phương trình này, ta có thể áp dụng ma trận (8) cho bất kỳ tín hiệu nào
được thiết kế cho tai nghe [EL ER]
T để lấy được tín hiệu cho hai loa. Phương pháp
này không yêu cầu θL và θR phải giống nhau. Chú ý rằng HRTF sẽ ngầm chiếm các
mức tăng và sự trễ các yếu tố trong phương trình Transaural sau đây:
1 2 2 2
1 ( )1
1 ( ) ( ) 1
d
d d
gH z z
A z
g H z z gH z z
(9)
Giản đồ thời gian tín hiệu âm thanh sau khi xử lý 3D được mô tả trong hình 7 và
8. Đối với tín hiệu đã qua xử lý 3D, trên giản đồ thời gian chúng ta có thể thấy, tín
hiệu âm thanh ở 2 kênh trái và phải có sự khác nhau về pha và biên độ, điều này
phù hợp với việc cảm nhận thực tế của tai người là âm thanh đi từ trái qua phải
theo các mức độ to nhỏ khác nhau.
Start
Open()
Path()
Project()
Speaker_tranform()
Make_Stereo()
Hình 3. Sơ đồ chung.
Kỹ thuật điều khiển & Điện tử
L. C. Duẩn, N. N. Minh, N. Q. Uy, “Nghiên cứu đề xuất thuật toán hai nguồn phát âm.” 82
Hình 4. Thuật toán Stangles – Phần 1.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 83
Hình 5. Thuật toán Stangles – Phần 2.
Kỹ thuật điều khiển & Điện tử
L. C. Duẩn, N. N. Minh, N. Q. Uy, “Nghiên cứu đề xuất thuật toán hai nguồn phát âm.” 84
,L RS S : Nguồn âm.
d : Khoảng cách từ tai đến trung tâm
loa.
,L R  : Góc nghe của tai tới hai
nguồn âm.
Hình 6. Mô hình tiếp nhận âm thanh từ 2 phía.
Giản đồ thời gian tín hiệu âm thanh sau khi xử lý 3D được mô tả trong hình 8.
Đối với tín hiệu đã qua xử lý 3D, trên giản đồ thời gian chúng ta có thể thấy, tín
hiệu âm thanh ở 2 kênh trái và phải có sự khác nhau về pha và biên độ, điều này
phù hợp với việc cảm nhận thực tế của tai người là âm thanh dường như đi từ trái
qua phải theo các mức độ to nhỏ khác nhau khiến người nghe cảm nhận một cách
trung thực nhất.
Hình 7. Giản đồ thời gian tín hiệu âm thanh thường.
Hình 8. Giản đồ thời gian tín hiệu âm thanh sau khi xử lý 3D.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 85
4. KẾT LUẬN
Bài báo đã đưa ra thuật toán xây dựng phần mềm giả lập âm thanh 3D và xử lý
âm thanh 3D. Kết quả đạt được của thuật toán đã được thể hiện trên phần mềm.
Ứng dụng thuật toán này vào thực thế có thể tích hợp công nghệ giả lập âm thanh
3D trong các bộ xử lý âm thanh chuyên nghiệp, phục vụ đời sống hàng ngày của
con người cũng như được áp dụng để xử lý âm thanh trong lĩnh vực truyền hình,
viễn thông.
TÀI LIỆU THAM KHẢO
[1]. Begault, D.R., “3D sound for virtual reality and multimedia”, AP
Professional, 2013.
[2]. Bosun Xie, “Head-Related Transfer Function and Virtual Auditory Display”, J
Ross Publishing, 2013.
[3]. John R. Deller, John H. L. Hassen, and John G.Proakis, “Discrete-Time
Processing of Speech Signals”, Wiley-IEEE Press, (2000).
[4]. Francis Rumsey, “Spatial Audio”, CRC Press, 2012.
[5]. Tashev, Ivan. "HRTF phase synthesis via sparse representation of
anthropometric features". Information Technology and Applications
Workshop,San Diego, CA, USA, Conference paper: 1–5, 2014.
[6]. Bilinski,Piotr; Ahrens, Jens; Thomas, Mark R.P; Tashev, Ivan; Platt,John C.
"HRTF magnitude synthesis via sparse representation of anthropometric
features ". IEEE ICASSP, Florence, Italy: 4468–4472, 2014.
ABSTRACT
RESEARCH AND SUGGEST 3D AUDIO PROCESSING ALGORITHM USE
TWO SOUND SOURCE
In this paper, an audio processing algorithm to produce elements effecst
to the sound and 3D sound is proposed. From that, we build an application
to emulate 3D sound using 2 channels. The results is analyzed and can be
applied to design 3D sound devices.
Keywords: DSP, Audio Process, 3D Sound, Sound Simulator, Fourier Transform.
Nhận bài ngày 01 tháng 9 năm 2016
Hoàn thiện ngày 01 tháng 11 năm 2016
Chấp nhận đăng ngày 14 tháng 12 năm 2016
Địa chỉ: Học viện Công nghệ Bưu chính Viễn thông;
* Email: duanlc@ptit.edu.vn

File đính kèm:

nghien_cuu_de_xuat_thuat_toan_gia_lap_am_thanh_3d_dung_hai_n.pdf