Nghiên cứu đề xuất thuật toán giả lập âm thanh 3D dùng hai nguồn phát âm
Bài báo đưa ra đề xuất xây dựng thuật toán và chương trình có tác
dụng giả lập âm thanh 3D từ hai nguồn phát âm. Chương trình giả lập sự lan
truyền của một nguồn âm thanh từ một hướng bất kỳ trong không gian 3D sử dụng 2
loa nằm ở phía trước của người nghe, bằng cách sử dụng phép đo dữ liệu hàm
HRTF để giả lập sự lan truyền của âm thanh và sau đó loại bỏ các hiệu ứng không
gian khác của loa. Chương trình được phát triển trên ngôn ngữ lập trình Python và
dựa trên 4 bước: định hướng tín hiệu âm thanh, phát hiện độ cao của nguồn, xây
dựng hàm truyền đạt âm thanh và cuối cùng là khử nhiễu xuyên âm của loa.
Bạn đang xem tài liệu "Nghiên cứu đề xuất thuật toán giả lập âm thanh 3D dùng hai nguồn phát âm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Nghiên cứu đề xuất thuật toán giả lập âm thanh 3D dùng hai nguồn phát âm
Kỹ thuật điều khiển & Điện tử L. C. Duẩn, N. N. Minh, N. Q. Uy, “Nghiên cứu đề xuất thuật toán hai nguồn phát âm.” 78 NGHIÊN CỨU ĐỀ XUẤT THUẬT TOÁN GIẢ LẬP ÂM THANH 3D DÙNG HAI NGUỒN PHÁT ÂM Lương Công Duẩn*, Nguyễn Ngọc Minh, Nguyễn Quốc Uy Tóm tắt: Bài báo đưa ra đề xuất xây dựng thuật toán và chương trình có tác dụng giả lập âm thanh 3D từ hai nguồn phát âm. Chương trình giả lập sự lan truyền của một nguồn âm thanh từ một hướng bất kỳ trong không gian 3D sử dụng 2 loa nằm ở phía trước của người nghe, bằng cách sử dụng phép đo dữ liệu hàm HRTF để giả lập sự lan truyền của âm thanh và sau đó loại bỏ các hiệu ứng không gian khác của loa. Chương trình được phát triển trên ngôn ngữ lập trình Python và dựa trên 4 bước: định hướng tín hiệu âm thanh, phát hiện độ cao của nguồn, xây dựng hàm truyền đạt âm thanh và cuối cùng là khử nhiễu xuyên âm của loa. Từ khóa: DSP, Xử lý âm thanh, Giả lập, Âm thanh 3D, Biến đổi Fourier. 1. GIỚI THIỆU CHUNG Hiệu ứng âm thanh 3D là một nhóm các hiệu ứng âm thanh và các dao động âm thanh được tạo ra bởi các loa stereo, loa âm thanh vòm, loa mảng, hoặc tai nghe, giúp con người không chỉ cảm nhận được nguồn âm thanh đến từ trước mặt mà nó sẽ tạo ra nguồn âm thanh sẽ đến từ bất cứ nơi nào trong không gian ba chiều, bao gồm cả phía sau, phía trên và phía dưới người nghe. Về bản chất, tác động của âm thanh 3D lên tai cũng giống như tác động của hình ảnh 3D đối với mắt. Để kiểm soát cảm giác của người nghe một cách tích cực thì đòi hỏi cần phải kiểm soát tất cả các khía cạnh về sự cảm nhận của con người đối với âm thanh. Hoạt động của hệ thống âm thanh 3D sẽ báo trước những thay đổi về các thuộc tính trong không gian âm thanh của người nghe. Hình 1. Các thuộc tính liên quan đến sự cảm nhận âm thanh trong không gian. Trong các nghiên cứu tâm lý trước đây, các điểm tham chiếu được dùng cho việc mô tả khoảng cách và vị trí của âm thanh ảo (Sound image) được đặt tại điểm gốc giữa hai tai, gần mắt và ở điểm trung tâm của đầu. Ngoài ra, cần xác định một nguồn âm thanh ảo, điều đó cũng có nghĩa khoảng cách tuyến tính giữa nguồn âm thanh ảo đó và người nghe là khoảng cách thấy được. Hình 1 đưa ra hai quy ước cho việc mô tả góc cảm nhận đối với một nguồn âm ảo gồm góc phương vị và độ cao. Góc phương vị là 00 thì đây là điểm trực tiếp trên Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 79 đầu của người nghe, dọc theo đường chia đôi góc từ điểm xuất phát. Trong một số hệ thống, góc phương vị được miêu tả như chiều quay theo kim đồng hồ, góc quay từ 00 đến 3600 dọc theo vòng tròn góc phương vị. Việc miêu tả góc phương vị và độ cao có thể xác định vị trí của nguồn âm xung quanh bề mặt hình cầu trên đầu người nghe. Yếu tố cần nghiên cứu cuối cùng trong không gian âm thanh này, chủ yếu đề cập đến những tác động ảnh hưởng của âm vang được sinh ra từ sự lặp đi lặp lại của nguồn âm xuất phát từ bề mặt khoang kín (hình 2). S là Nguồn âm, E là Môi trường nghiên cứ, L là vị trí tai nghe. Hình 2. Mô hình 2 chiều đơn giản. Các phản xạ âm từ bề mặt của khoang kín hoặc môi trường bên ngoài mà ảnh hưởng của nó được thể hiện qua tập hợp các nguồn âm thứ cấp, có thể gây ảnh hưởng rất nhiều đến cách cảm nhận nguồn âm. 2. ĐỊNH VỊ ÂM THANH TRONG KHÔNG GIAN ÂM THANH ẢO VÀ TỔNG HỢP PHA CỦA HÀM TRUYỀN ĐẠT Định vị âm thanh trong không gian ảo: Một giả định cơ bản trong việc tạo ra một không gian âm thanh ảo là nếu các sóng âm thanh xuất hiện tại màng nhĩ của người nghe giống với khi đang sử dụng tai nghe, thì những trải nghiệm của người nghe cũng phải được như vậy. Sử dụng Head Related Transfer Function (HRTF), âm thanh có thể được định vị trong không gian bằng cách sử dụng những nguồn tín hiệu sau: x1(t) là tín hiệu đến từ loa, y1(t) là tín hiệu nhận được từ một micro bên trong màng nhĩ của người nghe, x2(t) là tín hiệu đến từ tai nghe và y2(t) là phản ứng của micro bên trong màng nhĩ của người nghe. Mục đích của không gian âm thanh ảo là chọn được x2(t) sao cho y2(t) = y1(t). Áp dụng biến đổi Fourier với các tín hiệu này, chúng ta có 2 phương trình sau đây: Y1=X1LFM và Y2=X2HM (1) Trong đó: L: Hàm truyền đạt của loa trong trường tự do F: Hàm truyền đạt vào đầu (hàm truyền đạt) M: Hàm truyền đạt của micro H: Hàm truyền đạt từ headphone – màng nhĩ. Đặt Y1 = Y2 , ta có: H LF X X H LF XX HMXLFMX 1 2 12 21 (2) Kỹ thuật điều khiển & Điện tử L. C. Duẩn, N. N. Minh, N. Q. Uy, “Nghiên cứu đề xuất thuật toán hai nguồn phát âm.” 80 Vậy hàm truyền đạt cần có: H LF T (3) Nếu x1(t) vượt qua được bộ lọc này và x2(t) được phát trên tai nghe, thì nó sẽ sinh ra các tín hiệu tương tự ở màng nhĩ. Do các bộ lọc chỉ áp dụng cho một tai, nên một số khác sẽ phải lấy cho tai khác. Quá trình này được lặp lại tại nhiều nơi trong không gian ảo để tạo ra một loạt các hàm HRTF cho mỗi vị trí có thể tái tạo lại mà vẫn đảm bảo rằng các điều kiện lấy mẫu tuân thủ theo định luật Nyquist. Một pha HRTF có thẻ được mô tả bởi một hệ số tỉ lệ Interaural Time Difference (ITD). Được định lượng bởi dữ liệu nhân trắc học của một cá nhân đưa ra như một nguồn tham khảo. Đối với những trường hợp chung, chúng ta coi β như một vector rải rác. 1 2[ , ,...., ] T N (4) β đại diện cho các tính năng nhân trắc học của đối tượng như là một phép xếp chồng tuyến tính của tính năng nhân trắc học từ việc dữ liệu thử nghiệm (y' = βT X). 2 , 1 1 1 arg min ( (y ) ) A N N a n n a n a n n X (5) Từ đó, hệ số tỉ lệ ITD H’ được tính là: ' 1 N n n n H H (6) Khi những hệ số tỉ lệ ITD cho tất cả mọi người trong tập dữ liệu bị xếp chồng lên nhau trong một vector H ∈ RN (RN là vecto số thực N chiều), thì giá trị nH tương ứng với hệ số tỉ lệ của người thứ n. 3. XÂY DỰNG ỨNG DỤNG XỬ LÍ ÂM THANH 3D SỬ DỤNG HAI NGUỒN PHÁT ÂM Để giả lập âm thanh 3D, quy trình gồm 4 bước được đề xuất: định hướng tín hiệu âm thanh, phát hiện độ cao của nguồn, xây dựng hàm truyền đạt âm thanh và cuối cùng là khử nhiễu xuyên âm của loa. Định hướng tín hiệu sử dụng Interaural Intensity Difference (IID) và Interaural Time Difference (ITD). Phát hiện độ cao: Các vị trí của một nguồn âm thanh ở bên trên, bên dưới, hoặc phía sau người nghe cũng có thể được định vị nhờ thành phần vành tai, phần bên ngoài của tai. Việc này kết hợp với các dấu hiệu IID và ITD kể trên, cho phép phát hiện và dự báo âm thanh từ mọi góc độ. Hàm truyền đạt HRTF: là một bộ lọc giống với các đặc tính suy giảm tần số âm thanh khi đi qua đầu, vang vọng từ vai và đi qua vành tai. Mỗi HRTF cung cấp một đáp ứng xung cho kênh trái và phải, mà chúng ta sẽ ký hiệu là HL và HR tương ứng. Khử nhiễu xuyên âm của loa nhờ sử dụng một bộ lọc head-shadowing (che chắn đầu) và kết hợp với một số phương pháp khuếch đại. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 81 Thuật toán được đề xuất như trong các sơ đồ dưới đây. Sơ đồ chung của quá trình được trình bày trong hình 3. Setangles là một hàm chức năng nhận phương vị, độ cao tùy ý và trả về độ cao và góc phương vị gần nhất với đầu vào của một tập tin đã tồn tại. Thuật toán cho Setangles được miêu tả trong hình 4 và 5. Sau khi đọc được vị trí các nguồn phát, sử dụng một phép biến đổi Fourier để chiếu tín hiệu đáp ứng xung và miền tần số. Sau đó, các tín hiệu bên trái và bên phải được tạo ra bằng cách nhân lần lượt tín hiệu miền tần số với các hàm truyền đạt bên trái và bên phải. Phép biến đổi Fourier ngược được sử dụng để trả lại tín hiệu trái và phải, mà chúng sẽ xuất hiện ngay từ độ cao và góc phương vị được chỉ định. Mô hình tiếp nhận âm thanh từ 2 phía được thể hiện trong hình 6. Kể từ khi dùng HRTF để xác định vị trí nguồn ở bên loa trái và loa phải, chúng ta có thể lấy được phương trình cho tín hiệu nhận được ở tai và sau đó loại bỏ những hiệu ứng không gian của việc sử dụng loa thay vì tai nghe. Các bước thực hiện thuật toán Speaker Transform được mô tả trong hình 7. Đầu tiên, đặt HLL, HLR là hàm truyền đạt đến tai trái của HRTF của loa bên trái, phải. Chúng sẽ đến từ HRTF với góc phương vị θL, θR và độ cao 0. Tương tự thì HRL, HRR sẽ là hàm truyền đạt của tai phải cho vị trí 2 loa. Nếu khoảng cách giữa tai trái và tai phải là không đáng kể so với khoảng cách từ trung tâm của loa “d”, các tín hiệu ở bên tai trái và phải EL, ER có thể được tính bằng hệ phương trình sau: L LL L LR R R RL L RR R E H S H S E H S H S (7) Bây giờ, chúng ta lấy nghịch đảo của ma trận HRTF: 1L RR RL L R LR LL RLL RR LR Rl S H H E S H H EH H H H (8) Sử dụng phương trình này, ta có thể áp dụng ma trận (8) cho bất kỳ tín hiệu nào được thiết kế cho tai nghe [EL ER] T để lấy được tín hiệu cho hai loa. Phương pháp này không yêu cầu θL và θR phải giống nhau. Chú ý rằng HRTF sẽ ngầm chiếm các mức tăng và sự trễ các yếu tố trong phương trình Transaural sau đây: 1 2 2 2 1 ( )1 1 ( ) ( ) 1 d d d gH z z A z g H z z gH z z (9) Giản đồ thời gian tín hiệu âm thanh sau khi xử lý 3D được mô tả trong hình 7 và 8. Đối với tín hiệu đã qua xử lý 3D, trên giản đồ thời gian chúng ta có thể thấy, tín hiệu âm thanh ở 2 kênh trái và phải có sự khác nhau về pha và biên độ, điều này phù hợp với việc cảm nhận thực tế của tai người là âm thanh đi từ trái qua phải theo các mức độ to nhỏ khác nhau. Start Open() Path() Project() Speaker_tranform() Make_Stereo() Hình 3. Sơ đồ chung. Kỹ thuật điều khiển & Điện tử L. C. Duẩn, N. N. Minh, N. Q. Uy, “Nghiên cứu đề xuất thuật toán hai nguồn phát âm.” 82 Hình 4. Thuật toán Stangles – Phần 1. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 83 Hình 5. Thuật toán Stangles – Phần 2. Kỹ thuật điều khiển & Điện tử L. C. Duẩn, N. N. Minh, N. Q. Uy, “Nghiên cứu đề xuất thuật toán hai nguồn phát âm.” 84 ,L RS S : Nguồn âm. d : Khoảng cách từ tai đến trung tâm loa. ,L R : Góc nghe của tai tới hai nguồn âm. Hình 6. Mô hình tiếp nhận âm thanh từ 2 phía. Giản đồ thời gian tín hiệu âm thanh sau khi xử lý 3D được mô tả trong hình 8. Đối với tín hiệu đã qua xử lý 3D, trên giản đồ thời gian chúng ta có thể thấy, tín hiệu âm thanh ở 2 kênh trái và phải có sự khác nhau về pha và biên độ, điều này phù hợp với việc cảm nhận thực tế của tai người là âm thanh dường như đi từ trái qua phải theo các mức độ to nhỏ khác nhau khiến người nghe cảm nhận một cách trung thực nhất. Hình 7. Giản đồ thời gian tín hiệu âm thanh thường. Hình 8. Giản đồ thời gian tín hiệu âm thanh sau khi xử lý 3D. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 85 4. KẾT LUẬN Bài báo đã đưa ra thuật toán xây dựng phần mềm giả lập âm thanh 3D và xử lý âm thanh 3D. Kết quả đạt được của thuật toán đã được thể hiện trên phần mềm. Ứng dụng thuật toán này vào thực thế có thể tích hợp công nghệ giả lập âm thanh 3D trong các bộ xử lý âm thanh chuyên nghiệp, phục vụ đời sống hàng ngày của con người cũng như được áp dụng để xử lý âm thanh trong lĩnh vực truyền hình, viễn thông. TÀI LIỆU THAM KHẢO [1]. Begault, D.R., “3D sound for virtual reality and multimedia”, AP Professional, 2013. [2]. Bosun Xie, “Head-Related Transfer Function and Virtual Auditory Display”, J Ross Publishing, 2013. [3]. John R. Deller, John H. L. Hassen, and John G.Proakis, “Discrete-Time Processing of Speech Signals”, Wiley-IEEE Press, (2000). [4]. Francis Rumsey, “Spatial Audio”, CRC Press, 2012. [5]. Tashev, Ivan. "HRTF phase synthesis via sparse representation of anthropometric features". Information Technology and Applications Workshop,San Diego, CA, USA, Conference paper: 1–5, 2014. [6]. Bilinski,Piotr; Ahrens, Jens; Thomas, Mark R.P; Tashev, Ivan; Platt,John C. "HRTF magnitude synthesis via sparse representation of anthropometric features ". IEEE ICASSP, Florence, Italy: 4468–4472, 2014. ABSTRACT RESEARCH AND SUGGEST 3D AUDIO PROCESSING ALGORITHM USE TWO SOUND SOURCE In this paper, an audio processing algorithm to produce elements effecst to the sound and 3D sound is proposed. From that, we build an application to emulate 3D sound using 2 channels. The results is analyzed and can be applied to design 3D sound devices. Keywords: DSP, Audio Process, 3D Sound, Sound Simulator, Fourier Transform. Nhận bài ngày 01 tháng 9 năm 2016 Hoàn thiện ngày 01 tháng 11 năm 2016 Chấp nhận đăng ngày 14 tháng 12 năm 2016 Địa chỉ: Học viện Công nghệ Bưu chính Viễn thông; * Email: duanlc@ptit.edu.vn
File đính kèm:
- nghien_cuu_de_xuat_thuat_toan_gia_lap_am_thanh_3d_dung_hai_n.pdf