Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc

Tự động nhận dạng phân biệt tiếng nói với âm nhạc là công cụ quan trọng trong nhiều ứng dụng đa

phương tiện. Để nhận dạng phân biệt tiếng nói với âm nhạc, chúng tôi đã sử dụng ba đặc trưng: tần

suất vượt điểm không cao (HZCRR), tỷ lệ khung có năng lượng ngắn hạn thấp (LSTER), độ biến

thiên phổ (SF) và thuật toán sử dụng để huấn luyện cũng như nhận dạng là K-NN (K Nearest

Neighbor). Dữ liệu là các đoạn nhạc gồm nhiều thể loại từ nhạc không lời tới nhạc có lời (nhạc

Việt Nam, nhạc Rock, nhạc Pop, Đồng quê), các đoạn tiếng nói của giọng nam và nữ bằng tiếng

Việt. Trong bài báo này mục đích nghiên cứu ban đầu của chúng tôi chủ yếu là nhận dạng phân

biệt hai loại âm thanh: tiếng nói và âm nhạc với kết quả thu được có độ chính xác khá cao, với

tiếng nói có độ chính xác xấp xỉ 84%, âm nhạc là 92%. Trong tương lai chúng tôi mong muốn phát

triển hệ thống có khả năng nhận dạng phân biệt nhiều lớp âm thanh hơn.

pdf 7 trang kimcuc 10040
Bạn đang xem tài liệu "Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc

Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc
Đỗ Thị Loan và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95
89 
NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG PHÂN BIỆT 
TIẾNG NÓI VỚI ÂM NHẠC 
Đỗ Thị Loan, Lưu Thị Liễu, Nguyễn Thị Hiền 
Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên 
TÓM TẮT 
Tự động nhận dạng phân biệt tiếng nói với âm nhạc là công cụ quan trọng trong nhiều ứng dụng đa 
phương tiện. Để nhận dạng phân biệt tiếng nói với âm nhạc, chúng tôi đã sử dụng ba đặc trưng: tần 
suất vượt điểm không cao (HZCRR), tỷ lệ khung có năng lượng ngắn hạn thấp (LSTER), độ biến 
thiên phổ (SF) và thuật toán sử dụng để huấn luyện cũng như nhận dạng là K-NN (K Nearest 
Neighbor). Dữ liệu là các đoạn nhạc gồm nhiều thể loại từ nhạc không lời tới nhạc có lời (nhạc 
Việt Nam, nhạc Rock, nhạc Pop, Đồng quê), các đoạn tiếng nói của giọng nam và nữ bằng tiếng 
Việt. Trong bài báo này mục đích nghiên cứu ban đầu của chúng tôi chủ yếu là nhận dạng phân 
biệt hai loại âm thanh: tiếng nói và âm nhạc với kết quả thu được có độ chính xác khá cao, với 
tiếng nói có độ chính xác xấp xỉ 84%, âm nhạc là 92%. Trong tương lai chúng tôi mong muốn phát 
triển hệ thống có khả năng nhận dạng phân biệt nhiều lớp âm thanh hơn. 
Từ khóa: Phân biệt, tiếng nói, âm nhạc, nhạc Việt Nam, tiếng Việt. 
GIỚI THIỆU* 
Nhận dạng phân biệt tiếng nói với âm nhạc là 
một phần trong hệ thống phân loại âm thanh 
ASC (Audio Signal Classifier) [1] hay trong 
hệ thống nhận dạng các khung cảnh âm thanh 
CASR (Computeral Audio Scence 
Recognizer) [2], nhận dạng các chương trình 
trên ti vi [3], [4], hay hệ thống phiên dịch nốt 
nhạc AMTS [5]. Để xây dựng một hệ thống 
hoàn chỉnh thì rất khó khăn vì âm thanh rất 
phong phú, đa dạng và mỗi loại có những đặc 
trưng riêng, sự kết hợp giữa chúng tạo nên vô 
vàn các dạng âm thanh khác nhau, điều này 
ảnh hưởng lớn đến việc phân loại các khung 
cảnh âm thanh. Hầu hết các nghiên cứu nhận 
dạng phân biệt các lớp âm thanh đều căn cứ 
theo từng trường hợp mà bạn đưa về số lớp, 
và một vài điều kiện ràng buộc khác. Chẳng 
hạn phân loại âm thanh thành bốn lớp: âm 
nhạc, tiếng nói, nhiễu, khoảng lặng [4], [6] 
hoặc chỉ phân thành tiếng nói và âm nhạc 
không thôi [3], [7]. 
SỰ KHÁC NHAU GIỮA TIẾNG NÓI VÀ 
ÂM NHẠC 
Các tín hiệu âm thanh là một tín hiệu có ý 
nghĩa trong khoảng thời gian ngắn. Khi kiểm 
*
 Tel: 0972998865; Email:dtloan@ictu.edu.vn 
tra tín hiệu âm thanh trong khoảng thời gian 
đủ ngắn (giữa 5 và 100msec), ta có thể nhận 
thấy đặc điểm của nó là khá cụ thể. Tuy nhiên 
trong thời gian dài, các đặc tính của tín hiệu 
thay đổi để phản ánh đặc điểm của chuỗi tín 
hiệu như một bài phát biểu hay một đoạn 
nhạc. Trong phần này, chúng tôi đưa ra một 
số nhận định về sự khác biệt giữa tiếng nói và 
âm nhạc như sau: 
- Thanh điệu: Giai điệu có ý nghĩa sự biểu 
thị của dạng sóng âm thanh. Âm nhạc có xu 
hướng được tạo ra từ sự đa dạng của các tần 
số. Còn tiếng nói có giai điệu từ chính sắc 
điệu và giọng nói của người nói. 
- Chuỗi thay thế: Tiếng nói cho ta một chuỗi 
các tiếng ồn, khoảng lặng xem kẽ từng đoạn 
trong khi âm nhạc không có. Nói cách khác, 
lời nói có tín hiệu phân phối thông qua quang 
phổ ngẫu nhiên hơn so với âm nhạc. 
- Băng thông: Tiếng nói thường có 90% 
năng lượng tập trung ở tần số thấp hơn 4kHz 
(và hạn chế đến 8kHz), trong khi âm nhạc có 
thể mở rộng thông qua các giới hạn trên 
khoảng 20kHz. 
- Phân phối: Năng lượng của tiếng nói 
thường tập trung ở tần số thấp sau đó giảm rất 
nhanh trong các miền tần số cao hơn. Còn tín 
hiệu âm nhạc thì trải đều hơn. 
Đỗ Thị Loan và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95
90 
- Tần số cơ bản: với tiếng nói cụ thể, ta có 
thể xác định được tần số cơ bản nhưng với âm 
nhạc thì không. 
- Khoảng âm điệu: Thời hạn của nguyên âm 
trong tiếng nói là rất thường xuyên. Âm nhạc 
thể hiện một biến thể rộng lớn hơn chiều dài 
của giai điệu, không được hạn chế do quá 
trình phát âm nhạc. 
- Năng lượng ngắn hạn: Năng lượng của tín 
hiệu tiếng nói có sự biến thiên nhiều hơn so 
với tín hiệu âm nhạc. 
- Tỷ lệ vượt điểm không: Tùy thuộc vào tín 
hiệu âm nhạc và tiếng nói nhưng thông 
thường tỷ lệ vượt điểm không của tín hiệu 
tiếng nói sẽ lớn hơn tín hiệu âm nhạc. 
LỰA CHỌN ĐẶC TRƯNG VÀ PHƯƠNG 
PHÁP NHẬN DẠNG PHÂN BIỆT TIẾNG 
NÓI VỚI ÂM NHẠC 
Cho tới nay có khá nhiều đặc tính của tín hiệu 
âm thanh để nhận dạng, phân biệt tiếng nói và 
âm nhạc hay các hệ thống nhận dạng phân 
loại khác nhau. Mỗi nghiên cứu đều đưa ra 
một số lượng các đặc tính của tín hiệu âm 
thanh và phương thức sử dụng để phân loại. 
Các đặc tính của tín hiệu âm thanh thường 
được chia làm hai loại chính là: các đặc tính 
vật lý và các đặc tính cảm thụ âm thanh của 
con người. 
Đặc tính vật lý là các đặc tính đặc trưng trong 
miền tần số và đặc trưng trong miền thời gian 
như: biên độ, tần số vượt điểm không ZCR, 
năng lượng ngắn hạn, hệ số phổ MFCC, cặp 
phổ tuyến tính LSP (Linear Spectrum Pair) 
[6], độ biến thiên phổ SF. 
Đặc tính về cảm thụ âm thanh của con người 
là các đặc tính được con người cảm nhận như 
nhịp điệu, độ cao của âm (Pitch), độ ngân, âm 
sắc,. Cũng như nhiều nghiên cứu trước đây, 
để nhận dạng phân biệt tiếng nói với âm nhạc 
nói riêng hay nhận dạng phân biệt các lớp âm 
thanh khác nói chung hầu như chỉ sử dụng các 
đặc trưng vật lý là đủ. Bởi vậy trong bài báo 
này, chúng tôi cũng chỉ dùng các đặc trưng 
liên quan tới miền tần số và miền thời gian 
(đặc trưng vật lý). 
Dựa trên các phân tích, đánh giá về đặc điểm 
của tín hiệu âm thanh, giữa âm nhạc và tiếng 
nói về đặc điểm âm học, dải tần, đặc điểm về 
phân bố năng lượng, chúng tôi đã lựa chọn ba 
đặc trưng: Tỷ lệ tần suất vượt qua điểm không 
cao HZCRR (Hight Zero Crossing Rate 
Ratio), tỷ lệ khung có năng lượng ngắn hạn 
thấp LSTER (Low Short Time Energy Ratio) 
và độ biến thiên phổ SF (Spectrum Flux). Còn 
phương pháp nhận dạng phân biệt chúng tôi 
sử dụng là thuật toán K láng giêng gần nhất 
K-NN (K Nearest Neighbor) [8]. 
Lựa chọn đặc trưng 
Đặc trưng tần suất vượt qua điểm không cao 
- HZCRR 
Hình 1: Biểu đồ tần suất vượt điểm không 
của tín hiệu âm thanh 
Công thức của HZCRR như sau: 
∑
−
=
=
1
0
[
2
1 N
n
sign
N
HZCRR
(ZCRn – THL) +1 
Trong đó: 
- n là thứ tự của cửa sổ trích chọn đặc trưng 
- N là độ rộng của cửa sổ trích chọn đặc trưng 
- ZCR là tần suất vượt điểm không trong 
khoảng ngắn theo công thức : 
ZCRk = 
F2
1 )]()([ 1
1
−
+−=
−∑ m
k
Fkm
m xsignxsign
F: độ dài khoảng ngắn - thường là 1 frame 
- THL là tần suất vượt điểm không trung 
bình trong cửa sổ theo công thức: 
][1
1
0
∑
−
=
=
N
n
nZCRN
THL
Đặc trưng năng lượng ngắn hạn của tín 
hiệu - LSTER 
Công thức tính LSTER như sau: 
∑
−
=
+−=
1
0
]1)([
2
1 N
n
nSTETHLsignN
LSTER
Đỗ Thị Loan và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95
91 
Trong đó: 
- STE là năng lượng trong khoảng ngắn 
(trong 1 frame) theo công thức: 
)2.
1
2(
mkw
k
Fkm m
xkSTE −∑
+−=
=
W là cửa sổ (có thể là chữ nhật hoặc 
hamming) 
- THL là năng lượng trung bình theo công 
thức: 
][
2
1 1
0
∑
−
=
=
N
n
nSTEN
THL
Đặc trưng độ biến thiên phổ - SF 
Trong đó: 
- K là bậc của phổ DFT. 
- δ là hằng số bé (=0.01) để loại trường hợp 
log(0). 
- A(n,m) là biến đổi Fourier rời rạc(DFT) 
theo công thức: 
|
2
).()(),(| ∑
∞
−∞=
−=
i
mi
L
j
einLwix
mn
A
pi
Hình 2. Biểu đồ histogram độ biến thiên phổ 
theo không gian 3 chiều (a): music (b):speech 
Thuật toán KNN 
Thuật toán K-NN [8] là phương pháp phân 
loại dựa trên chỉ tiêu không gian khoảng cách. 
Xác định một điểm thuộc miền nào bằng cách 
tính toán dựa trên khoảng cách không gian. 
Có nhiều phương pháp để tính khoảng cách 
giữa các vectơ như phương pháp đo khoảng 
cách Euclidean, phương pháp đo khoảng cách 
Hamming, phương pháp đo khoảng cách 
Mahalanobis hay phương pháp đo khoảng 
cách City Block. 
Bài toán: Giả sử ta có một không gian đa 
chiều (Y1, Y2,,Yn) và có một tập hợp các 
khu vực A, B trong đó: 
- Khu vực A ta biết được sự tồn tại của các 
đối tượng XA1, XA2,  XAn với XAi={ YAi1, 
YAi2,, YAin} 
- Khu vực B ta chỉ biết sự tồn tại của các 
đối tượng XB1, XB2,  XBn với XBi={ YBi1, 
YBi2,, YBin} 
Có một đối tượng Xi ( Yi1, Yi2,, Yin) bất kì 
ta cần xác định đối tượng Xi này thuộc khu 
vực A hay B. 
Hình 3: Mô tả thuật toán K-NN 
Giải thuật: Trong tất cả các đối tượng đã xác 
định rõ khu vực A và B, ta tìm K đối tượng 
gần với Xi nhất, trong K đối tượng này sẽ xác 
định xem có bao nhiêu đối tượng thuộc khu 
vực A, bao nhiêu đối tượng thuộc khu vực B, 
khu vực nào nhiều đối tượng gần Xi hơn thì 
Xi có khả năng thuộc khu vực đó. 
Để tính khoảng cách giữa các vectơ dùng 
công thức: 
D(X,X’)= 
THỰC HIỆN HỆ THỐNG NHẬN DẠNG 
PHÂN BIỆT TIẾNG NÓI VỚI ÂM NHẠC 
Hệ thống có dạng tổng quát như hình 4. 
Hoạt động của hệ thống gồm hai quá trình 
riêng biệt: thứ nhất là quá trình học (huấn 
luyện) và thứ hai là quá trình nhận dạng phân 
biệt với tín hiệu đầu vào. 
Quá trình huấn luyện: Tín hiệu đầu vào 
được đưa vào phân tích đặc trưng. Tại đây 
chúng được xử lý, tính toán và lấy ra giá trị 
các đặc trưng cần trích chọn phục vụ cho việc 
xây dựng hệ thống. Sau đó tới khối huấn 
Đỗ Thị Loan và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95
92 
luyện được xử lý và lưu vào cơ sở dữ liệu 
(CSDL) mẫu. Quá trình huấn luyện dùng 
phương pháp học có giám sát nghĩa là chúng 
ta đã biết rõ sự phân lớp trên tập dữ liệu mẫu 
dùng để học, ở đây chỉ có hai lớp: tiếng nói và 
âm nhạc. Các đặc trưng mẫu của từng lớp 
được trích chọn lưu riêng vào CSDL. 
Hình 4: Mô hình tổng quát của hệ thống 
Quá trình nhận dạng phân biệt: Trình tự 
thực hiện cũng như trên nhưng chỉ khác là tín 
hiệu sau khi được trích chọn đặc trưng sẽ 
được đưa vào khối nhận dạng phân biệt. Tại 
khối này chúng ta phân tích đánh giá với 
CSDL mẫu đã được huấn luyện thông qua 
thuật toán K-NN. Kết quả này sau đó được 
chuyển tới bộ ra quyết định để xác định xem 
tín hiệu hiệu đó thuộc lớp tín hiệu nào. Vectơ 
đặc trưng là vectơ 3 chiều vì ta chỉ chọn 3 đặc 
trưng như đã trình bày ở trên. 
Phân khung tín hiệu: Do tín hiệu tiếng nói 
ổn định trong khoảng vài chục ms, nên khi 
tiến hành các phép phân tích, biến đổi người 
ta thường chia tín hiệu thành có đoạn nhỏ 
khoảng 10 đến 30ms, đó được gọi là phân 
khung, các khung tín hiệu liên tiếp có thể 
chồng nhau khoảng ½ độ dài. 
Hình 5: Phân khung tín hiệu 
Tuy nhiên vấn đề khi phân khung của tín hiệu 
đó chính là sai số của cả phép biến đổi so với 
tín hiệu gốc, do đó nên sử dụng hàm cửa sổ 
để hạn chế các sai số do độ dài hữu hạn của 
các tín hiệu gây ra trong các phép biến đổi. 
Hàm cửa sổ thường được dùng là Hamming 
được cho bởi công thức sau: 
)
1
2
cos(*46.054.0
−
Π
−=
N
nW n
KẾT QUẢ 
Cài đặt hệ thống 
Chúng tôi thực hiện hệ thống nhận dạng phân 
biệt với tín hiệu đầu vào là các file âm thanh 
chuẩn dạng WAVE (*.wav), việc tính toán, 
xử lý, phân biệt đều thực hiện dựa trên file 
wave này. Như đã phân tích ở trên quá trình 
huấn luyện gồm các bước cơ bản sau: 
Hình 6: Mô hình quá trình huấn luyện 
Với mỗi dãy tín hiệu âm thanh đọc được, ta 
thực hiện xác định khung tín hiệu, tính các 
thông số cơ bản STE, ZCR, A của dãy tín hiệu. 
Giao diện cài đặt của quá trình huấn luyện: 
Hình 7: Giao diện huấn luyện, tạo dữ liệu mẫu 
Đỗ Thị Loan và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95
93 
- Bên phải là đồ thị của tín hiệu: tại khung cửa 
sổ thứ nhất là dạng tín hiệu âm thanh, tiếp theo 
là năng lượng trong khoảng ngắn hạn và tần 
suất vượt điểm không của tín hiệu âm thanh. 
- Bên trái là các điều khiển: mở file wave, 
nghe thử, xác định tiếng nói hay âm nhạc, lưu 
dữ liệu. 
Quá trình nhận dạng: 
Hình 8: Mô hình quá trình nhận dạng 
Quá trình nhận dạng có một số bước trùng 
với quá trình huấn luyện như việc đọc dữ 
liệu file wave, thông số cơ bản, tính các 
thông số đặc trưng. 
Hình 9: Giao diện nhận dạng phân biệt 
Tương tự như giao diện huấn luyện, giao diện 
nhận dạng cũng có các phần: 
- Bên phải là đồ thì biểu diễn của tín hiệu: tại 
khung cửa sổ thứ nhất là dạng tín hiệu của âm 
thanh, tiếp theo là năng lượng trong khoảng 
ngắn hạn và tần suất vượt điểm không của tín 
hiệu âm thanh, tuy nhiên khác với giao diện 
huấn luyện, giao diện nhận dạng còn có thêm 
khung cửa sổ thứ 4 thể hiện đây là tiếng nói 
hay âm nhạc (tiếng nói có biên độ bằng 2/3 
khung còn âm nhạc có biên độ = 1/3 khung). 
- Bên trái cũng là khung điều khiển mở, 
chọn tín hiệu file wave. Ngoài ra còn có sự 
lựa chọn tham số K (K là số phần tử thuộc lớp 
đặc trưng mẫu gần với mẫu cần nhận dạng 
phân biệt nhất). 
Đánh giá 
Chương trình thực hiện phân biệt tiếng nói và 
âm nhạc dựa trên một tập các tín hiệu âm 
thanh mẫu mà tôi sưu tầm có được : tập hợp 
tiếng nói là tiếng Việt, tập hợp âm nhạc là các 
thể loại nhạc không lời của một số trường 
phái âm nhạc. 
Tập hợp tiếng nói gồm có 1037 file là các file 
phát âm các từ của tiếng Việt, mỗi file có độ 
dài < 1s, có tần số lấy mẫu 16000Hz, bit rate 
là 16bit/mẫu. 
Tập hợp âm nhạc gồm có 77 file là các file 
nhạc không lời của các thể loại R&B, Rock, 
Country. Mỗi file có độ dài < 30s và có 
cùng tần số lấy mẫu 16000Hz, bit rate 
16bit/mẫu. 
Các file dữ liệu mẫu trên đều là các file âm 
thanh mono (một kênh). 
Qua thử nghiệm, thống kê tôi thấy chương 
trình đã thực hiện việc phân biệt tiếng nói và 
âm nhạc với tỉ lệ chính xác tốt với các trường 
hợp tiếng nói và âm nhạc riêng biệt. 
Sau đây là kết quả thu được khi thử nghiệm: 
Bảng 1: Kết quả thống kê cơ sở dữ liệu 
Âm 
nhạc 
Tiếng 
nói 
Giá trị trung bình của 
LSTER 0.2048 0.14599 
Giá trị trung bình của 
HZCRR 0.3942 0.2632 
Giá trị trung bình của SF 0.3885 0.22 
Đỗ Thị Loan và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95
94 
Bảng 2: Kết quả thống kê nhận dạng với một số 
lượng đầu vào là tiếng nói và âm nhạc với K=3 
 Âm nhạc Tiếng nói 
Nhận dạng là âm 
nhạc 
10838432 
(92.36%) 
945553 
(15.56%) 
Nhận dạng là 
tiếng nói 
897324 
(7,64%) 
5131722 
(84.44%) 
Tổng 11735756 (100%) 
6077275 
(100% 
Bảng 3: Kết quả thống kê nhận dạng với một số 
lượng đầu vào là tiếng nói và âm nhạc với K=5 
 Âm nhạc Tiếng nói 
Nhận dạng là 
âm nhạc 
10878964 
(92.7%) 
974188 
(16.03%) 
Nhận dạng là 
tiếng nói 
856792 
(7,3%) 
5103087 
(83.97%) 
Tổng 11735756 (100%) 
6077275 
(100%) 
KẾT LUẬN 
Trong nghiên cứu này chúng tôi chủ yếu tập 
trung phân tích đánh giá các đặc điểm vật lý, 
đặc điểm về cảm thụ âm thanh của hai tín 
hiệu: âm nhạc và tiếng nói: sau khi thử 
nghiệm dùng ba đặc trưng HZCRR, LSTER, 
SF với thuật toán phân loại K-NN chúng tôi 
thấy kết quả thu được là khá tốt. Trong tương 
lai, chúng tôi sẽ tiếp tục hoàn thiện hệ thống 
sao cho có được một hệ thống hoàn chỉnh để 
có thể thực hiện tự động nhận dạng phân biệt 
tiếng nói với âm nhạc đem áp dụng vào thực 
tế (ứng dụng tự động thu thập thông tin, đánh 
giá chỉ mục cho dữ liệu đa phương tiện. 
TÀI LIỆU THAM KHẢO 
[1]. David Gerhard, (2000), “Audio Signal 
classification: an overview” , Canadian Artificical 
Intelligence, 45:4-6, Winter. 
[2]. Peltonen, V., (2001) “Computational 
Auditory Scene Recognition”. MSc Thesis, 
Tampere University. 
[3]. Saunders, J., “Real-Time Discrimi-nation 
of Broadcast Speech/Music”, Proc. ICASSP, 
pp993-996 
[4]. Srinivasan, S., (1999), Petkovic, D., 
Poncelcon, D, “Toward robust features for 
classifying audio in the CueVideo System”, Proc 
7th ACM Int, Conf Multimedia, pp. 393-400. 
[5]. M.D. Plumbley, S.A Abdallah, J.P. Bello, 
M.F. Davies, G, Monti , M.B. Sandler (2002), 
“Automatic music transcription and audio source 
separation”, Cybernetics and System, 33(6):603-627. 
[6]. Lu, L., Jiang, H., and Zhang, H. J., (2001), 
“A robust audio classification and Segmentation 
method”, in Proc. 9th ACM Int Conf Multimedia, 
pp 203-211. 
[7]. Scheier, E., Slaney, M., (1997), 
“Construction and Evaluation of a Robust 
Multifeature Speech/Music Discrimination”. Proc. 
ICASSP, pp1331-1334. 
[8]. S. Theodoridis, K. Kontroumbas (1999), 
“Pattern Recognition”, Academic Press. 
Đỗ Thị Loan và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95
SUMMARY 
RESEARCH INTO METHOD OF DISCRIMINATION 
BETWEEN SPEECH AND MUSIC 
Do Thi Loan*, Luu Thi Lieu, Nguyen Thi Hien 
College of Information Communication and Technology – TNU 
Automatic discrimination of speech and music is an important tool in many multimedia 
applications. For the discrimination of speech and music we have used three characteristics: 
HZCRR (High Zero Crossing Rate Ratio), LSTER (Low Short Time Energy Ratio), SF (Spectrum 
Flux) and the algorithm for training and discrimination is K Nearest Neighbor. The data is musical 
segments with different kind of music like Vietnamese music, Rock, Pop songs, country music and 
speech segments of male and female voices for Vietnamese. In the article the major objective of 
our research is to discriminate two audio signals: speech and music. We have got results with 
rather high accuracy: about 88% for speech and 92% for music. In the future, we would like to 
develop the system to classify more classes of audio signal. 
Key words: Discrimination, speech, music, Vietnamese music, Vietnamese 
Phản biện khoa học: TS. Phạm Đức Long – Trường Đại học CNTT & TT – ĐH Thái Nguyên 
*
 Tel: 0972998865; Email:dtloan@ictu.edu.vn 

File đính kèm:

  • pdfnghien_cuu_phuong_phap_nhan_dang_phan_biet_tieng_noi_voi_am.pdf