So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (mfcc) và cao độ pitch trong việc tìm kiếm âm nhạc theo nội dung

Trong cách tiếp cận truyền thống, các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các

đặc trưng vật lý của âm thanh như độ to, độ cao, năng lượng, phổ tần số, Có rất nhiều phương

pháp trích chọn đặc trưng âm thanh đã và đang được nghiên cứu để áp dụng vào bài toán tìm kiếm

âm nhạc theo nội dung. Tuy nhiên hai phương pháp phổ biến nhất và được đánh giá cao là phương

pháp sử dụng đường bao phổ (MFCC) và phương pháp sử dụng cao độ (F0).

Bài báo này nghiên cứu về hai phương pháp này đồng thời so sánh đánh giá hiệu quả của từng

phương pháp.

pdf 6 trang kimcuc 5180
Bạn đang xem tài liệu "So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (mfcc) và cao độ pitch trong việc tìm kiếm âm nhạc theo nội dung", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (mfcc) và cao độ pitch trong việc tìm kiếm âm nhạc theo nội dung

So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (mfcc) và cao độ pitch trong việc tìm kiếm âm nhạc theo nội dung
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 33 - 38
33 
SO SÁNH HAI PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG ÂM THANH: 
ĐƯỜNG BAO PHỔ (MFCC) VÀ CAO ĐỘ PITCH TRONG VIỆC 
TÌM KIẾM ÂM NHẠC THEO NỘI DUNG 
Phùng Thị Thu Hiền1*, Đoàn Xuân Ngọc2, Phùng Trung Nghĩa3 
1Trường Đại học Kỹ thuật Công nghiệp - ĐH Thái Nguyên 
2Cục thuế tỉnh Thái Nguyên 
3Trường Đại học CNTT&TT - ĐH Thái Nguyên 
TÓM TẮT 
Trong cách tiếp cận truyền thống, các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các 
đặc trưng vật lý của âm thanh như độ to, độ cao, năng lượng, phổ tần số, Có rất nhiều phương 
pháp trích chọn đặc trưng âm thanh đã và đang được nghiên cứu để áp dụng vào bài toán tìm kiếm 
âm nhạc theo nội dung. Tuy nhiên hai phương pháp phổ biến nhất và được đánh giá cao là phương 
pháp sử dụng đường bao phổ (MFCC) và phương pháp sử dụng cao độ (F0). 
Bài báo này nghiên cứu về hai phương pháp này đồng thời so sánh đánh giá hiệu quả của từng 
phương pháp. 
Từ khóa: Vector đặc trưng, Mel Cepstral, K-means, F0, pitch, DTW. 
ĐẶT VẤN ĐỀ* 
Hiện nay, có rất nhiều nghiên cứu về vấn đề 
trích chọn đặc trưng âm thanh trong bài toán 
tìm kiếm âm nhạc theo nội dung. 
S.Blackburn và D.DeRoure [4] đã sử dụng kỹ 
thuật hiệu chỉnh cao độ (F0) để xác định giai 
điệu chính của đoạn nhạc. Trong nghiên cứu 
của mình, S.Blackburn và D.DeRoure đã so 
sánh tính toán độ tương tự của bài hát bằng 
kỹ thuật so khớp xâu. Trong khi đó, Mc Nab, 
Smith, Witten, Henderson và Cunningham [5] 
đã sử dụng phương thức tính toán giai điệu 
bằng cách ước lượng cao độ Pitch để so sánh 
giữa các bản phiên âm của mỗi bài hát. 
Tuy nhiên, theo một nghiên cứu của Beth 
Logan [3] thì cấu trúc âm thanh của âm nhạc 
là quan trọng. Vì vậy cần phải có một hệ 
thống nhận biết độ tương tự âm thanh theo 
cách gần giống như hệ thống nghe của con 
người, và hệ thống thính giác của con người 
dễ dàng thu và nhận dạng các nhóm âm thanh 
hơn là từng nốt nhạc hay âm riêng lẻ. 
Bài báo này trình bày phương pháp tìm kiếm 
âm nhạc theo nội dung sử dụng theo hai đặc 
trưng, thứ nhất là sử dụng đặc trưng cao độ 
(Pitch) và thứ hai là sử dụng đặc trưng đường 
*
 Tel: 0986060545; Email: pthientng@gmail.com 
bao phổ (MFCC), cuối cùng là đưa ra một số 
kết quả thực nghiệm để so sánh hiệu quả của 
hai phương pháp. 
CƠ SỞ LÝ THUYẾT 
Sử dụng đặc trưng cao độ 
Cao độ Pitch 
Không khí đi qua thanh quản làm thanh quản 
rung lên. Sự rung động này với một tỷ lệ nào 
đó cũng được gọi là tần số cơ bản – f0 . Tần 
số cơ bản phụ thuộc vào kích cỡ và áp lực của 
thanh quản. Tần số cơ bản liên quan đến âm 
thanh về cao độ và nó có thể được ước lượng 
chính xác từ tín hiệu âm thanh. 
Độ cao hay độ trầm bổng của âm thanh chính 
là tần số sóng cơ học của âm thanh. Âm thanh 
nào cũng phát ra ở một độ cao nhất định. Độ 
cao của âm thanh phụ thuộc vào tần số dao 
động. Đối với tiếng nói, tần số dao động của 
dây thanh quy định độ cao giọng nói của con 
người. Mỗi người có một cao độ giọng nói 
khác nhau, độ cao của nữ giới thường cao hơn 
nam giới và độ cao của trẻ em thường cao 
hơn của người lớn. 
Cao độ Pitch do đó là đại lượng tỷ lệ nghịch 
với tần số cơ bản F0. 
Pitch là thuộc tính cơ bản của tiếng nói. Tai 
người nhạy cảm với sự thay đổi tần số cơ bản 
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 33 - 38
34 
hơn là các tham số khác của tín hiệu tiếng 
nói. Ước lượng pitch khó do sự thay đổi của 
sóng âm thanh. Sóng âm thanh thay đổi nhỏ 
giữa các chu kỳ, thời điểm lựa chọn để đo sẽ 
ảnh hưởng tới chu kỳ cao độ. Ước lượng cao 
độ thiếu chính xác do sự xuất hiện của sóng 
hài hoặc hài bậc ba của cao độ tần số. 
Có rất nhiều thuật toán và phương thức ước 
lượng cao độ. Các thuật toán ước lượng pitch 
cố gắng để định vị chu kỳ trong miền thời 
gian của tín hiệu tiếng nói hoặc miền tần số 
của tín hiệu âm thanh. Các cách tính Pitch hầu 
hết dựa vào phương pháp tự tương quan hoặc 
biến thể của nó. 
Ước lượng Pitch bằng phương pháp tự 
tương quan 
Ước lượng Pitch thường sử dụng phương 
pháp tự tương quan. Ý nghĩa của sự tương 
quan là đo độ tương tự giữa 2 tín hiệu, và sự 
tự tương quan đo độ tương tự giữa chính nó 
và biến đổi theo thời gian của chính nó. 
Phương thức tự tương quan trong một khoảng 
thời gian ngắn của một đoạn s(m), của một tín 
hiệu rời rạc theo thời gian s(n) có thể được 
biểu diễn là: 
∑
−−
=
+=
kN
m
kmsmskr
1
0
)()()(
 [1] 
k là độ trễ và N là độ dài đoạn, s(m) = 0 ngoài 
miền (0 1)m N≤ ≤ − . 
Hình 1: Dạng sóng và tự tương quan trên miền 
thời gian của một đoạn tiếng nói ngắn 
Hình 1 thể hiện một đoạn âm thanh ngắn và 
tính tự tương quan của đoạn đó. Chu kỳ cao 
độ được theo dõi trên khoảng 80 mẫu. Đỉnh 
nhô lên trong sóng tự tương quan biểu thị 
điều này. Giá trị cực đại để xuất hiện quá 
trình tự tương quan là ở mức trễ 0. Một giá trị 
cực đại khác ở mức trễ 162, cho thấy một sự 
kết hợp tốt khi dịch chuyển là hai lần chu kỳ 
cao độ. Vì vậy, để ước lượng cao độ pitch, 
cửa sổ âm thanh nên chứa ít nhất hai chu kỳ 
cao độ (N >2/Fo). 
Ước lượng Cepstral Pitch 
Khi một tín hiệu tuần hoàn với tần số cơ bản 
Fo chứa nhiều sóng hài sát nhau thì đoạn phổ 
tương ứng thể hiện các đường gợn sóng như 
cấu trúc hài của nó. Cepstrum của tín hiệu này 
sẽ thể hiện bằng một chóp cao tại tần số 1/F0. 
Cepstrum được định nghĩa là một biến đổi 
Fourier rời rạc ngược về cường độ với tín 
hiệu vào s(n). 
Cepstrum được biểu diễn là: 
|)))((|(log)( 10 nsFFTIFFTdCepstrum =
 [2] 
d là miền tần số của tín hiệu cepstrum. Các hệ 
số của chỉ số trên miền thời gian là các thành 
phần tuần hoàn của tín hiệu gốc. Thông tin 
cao độ được trích ra bởi vì một tín hiệu âm 
thanh không chỉ chứa các thành phần phổ có 
tần số cơ bản mà còn chứa các hài. Cepstrum 
thu được có cấu trúc lặp lại theo cường độ 
phổ. Miền tần số thấp của cepstrum thể hiện 
dạng vocal tract của hệ thống tiếng nói con 
người. Tần số cao của cepstrum mô tả thông 
tin kích thích trong tiếng nói – pitch. 
Hình 2 thể hiện cường độ phổ và cepstrum 
tương ứng với đoạn tiếng nói trong hình 1. 
Giá trị tại Cepstrum(0), được bỏ đi để thu 
được giải động tốt hơn. Đỉnh nhô lên tại tần 
số 82 biểu thị chu kỳ cao độ. Tần số này 
tương ứng với tỷ lệ mẫu của tín hiệu gốc, 
8000Hz. Vì vậy tần số 82 thể hiện tần số cao 
độ 8000/82 = 97.2 Hz. 
Cấu trúc quan trọng trong miền tần số 
frequency thấp, từ 1 tới 16 miêu tả thông tin 
vocal tract. 
Với âm hữu thanh, phép phân tích Cepstral 
của một đoạn tiếng nói ngắn sẽ tạo ra một 
đỉnh của chu kỳ cao độ, nhưng đối với những 
âm vô thanh thì không. Phép phân tích 
Cepstral có thể được sử dụng cho đoạn âm 
thanh là hữu thanh hay vô thanh để xác định 
chu kỳ cao độ, 1/F0 nếu là đoạn hữu thanh. 
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 33 - 38
35 
Hình 2: Cường độ Log của DFT và tần số 
Cepstrum của đoạn tiếng nói trong hình 1 
Sử dụng đặc trưng đường bao phổ MFCC 
Tần số cảm thụ có nghĩa 
Tai của con người nhận biết được những âm 
thanh có tần số thấp (<1kHz) tốt hơn những 
âm thanh có tần số cao. Vì vậy điều quan 
trọng là cần làm nổi bật lên những âm thanh 
có tần số thấp hơn là tần số cao. 
Dải thông của tín hiệu tiếng nói là khoảng 
10kHz. Không có thành phần tần số nào tồn 
tại dưới 50kHz. Tần số tiếng nói là dưới 
3kHz, cao hơn các thành phần tần số chính 
liên quan đến người nói, âm nhạc, dụng cụ âm 
thanh hoặc hiệu ứng. Formants cũng là thông 
tin quan trọng. Tần số formants của âm hữu 
thanh được tìm thấy dưới 5kHz trong khi của 
âm vô thanh biến mất. 
Hình 3: Cường độ âm hữu thanh và vô thanh 
 A: Cường độ của tín hiệu âm vô thanh 
 B: Cường độ của tín hiệu âm hữu thanh 
Phép phân tích Cepstral 
Cepstral là một phương pháp để trích chọn 
đặc trưng âm thanh. Trích chọn tham số đặc 
trưng âm thanh dựa trên hai cơ chế: 
Mô phỏng lại quá trình cảm nhận âm thanh 
của tai người. 
Mô phỏng lại quá trình tạo âm của cơ quan 
phát âm. 
Cường độ log phổ của hai tín hiệu s1 và s2 là 
sự tổ hợp tuyến tính của cường độ phổ log 
như được thể hiện trong biểu thức 3: 
log10(|DFT[s1*s2](k)|) = log10(|s1(k)|) +log10(|s2(k)|) [3] 
Giả sử rằng S1 và S2 là những phần tách rời 
của phổ và quan sát cường độ log phổ của 2 
tín hiệu chập S1 và S2 ở trên, DFT có thể 
được tính toán để thu được sự mô tả các tần 
số riêng biệt theo log10(|s1(k)|) và 
log10(|s2(k)|). Tín hiệu chuyển đổi được miêu 
tả trong miền tần số vì vậy 
log10(|DFT[s1*s2](k)|) được chuyển đổi sang 
miền tần số dubbed, quá trình chuyển đổi này 
được gọi là phân tích cepstral và phổ thu 
được được gọi là cepstrum. 
Xử lý Cepstral theo thang đo tần số Mel 
Các đặc trưng của Mel Cepstral rất thành 
công trong các ứng dụng xử lý tiếng nói và 
phục hồi âm nhạc với độ chính xác cao. Các 
đặc trưng này tạo sự uyển chuyển của cường 
độ phổ của những đoạn tín hiệu âm thanh, vì 
vậy nó là công cụ mạnh khi có những thay 
đổi nhỏ trong giai điệu hoặc kiểu phối nhạc. 
MFCC có nhiều đặc trưng vượt trội khi sử 
dụng để nhận dạng tiếng nói theo thời gian. 
Mỗi bước của quá trình tạo các đặc trưng 
MFCC được thực hiện bằng hệ thống cảm 
thụ âm thanh của con người. Tức là những gì 
không liên quan có thể bỏ đi khỏi cơ sở dữ 
liệu gốc dựa trên quá trình cảm thụ âm thanh 
dạng sóng của con người, và tiếp theo là yêu 
cầu giảm kích thước dữ liệu và tăng tốc độ 
tính toán. 
Quá trình lọc theo thang Mel Cepstral: 
Theo Beth Logan, MFCC gồm 5 bước: 
1. Chia tín hiệu thành các khung 
2. Với mỗi khung, ta thu được biên độ phổ. 
3. Lấy log của biên độ 
4. Chuyển đổi sang thang Mel 
5. Thực hiện biến đổi Cosine rời rạc. 
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 33 - 38
36 
Hình 4: Quá trình tạo các đặc tính MFCC 
Quan sát quá trình trên ta thấy, âm thanh 
được chia thành những khung có độ dài cố 
định. Mục đích là để lấy mẫu những đoạn tín 
hiệu nhỏ (theo lý thuyết là ổn định). Hàm cửa 
sổ bỏ đi những hiệu ứng phụ và vector đặc 
trưng cepstral được thực hiện trên mỗi khung 
cửa sổ. Biến đổi Fourier rời rạc của mỗi 
khung được tính toán và lấy logarithm biên 
độ phổ. Thông tin về pha bị bỏ qua do biên độ 
phổ là quan trọng hơn pha. Thực hiện lấy 
logarithm biên độ phổ do âm lượng của tín 
hiệu là xấp xỉ logarith. Tiếp theo biến đổi phổ 
theo thang Mel. Từ kết quả này, trong vector 
Mel – spectral của các thành phần tương quan 
cao, bước cuối cùng là thực hiện biến đổi 
cosine rời rạc để tổng hợp vector phổ Mel để 
tương quan lại các thành phần này 
Độ lệch tần số Mel 
Độ lệch tần số Mel làm nhẵn phổ và làm nổi 
lên các tần số cảm thụ có nghĩa. Biến đổi 
Fourier lên tín hiệu qua bộ lọc thông dải để 
làm đơn giản phổ mà không làm mất dữ liệu. 
Điều này được thực hiện bằng cách tập hợp 
các thành phần phổ thành một dải tần số. Phổ 
được làm đơn giản hóa do sử dụng một giàn 
bộ lọc để tách phổ thành các kênh. Các bộ lọc 
được đặt cách đều nhau trên thang Mel và lấy 
logarit trên thang tần số, các kênh có tần số 
thấp là không gian tuyến tính trong khi các 
kênh có tần số cao là không gian logarit. 
Tai người không cảm nhận sự thay đổi tần số 
của tiếng nói tuyến tính mà theo thang mel. 
Thang tần số Mel tuyến tính ở tần số dưới 
1kHz và logarit ở tần số cao hơn 1kHz. Ta 
chọn tần số 1kHz, 40 dB trên ngưỡng nghe 
1000 Mel. Do đó công thức gần đúng biểu 
diễn quan hệ tần số ở thang mel và thang 
tuyến tính như sau: 
Một phương pháp để chuyển đổi sang thang 
mel là sử dụng băng lọc. Khoảng cách của 
băng lọc được định nghĩa bởi một hằng số tần 
số mel theo thời gian. Băng lọc này được áp 
dụng trong miền tần số, nó có thể xem như 
các điểm thu được của bộ lọc chính. Với các 
khung nhỏ tốt nhất là sử dụng các bộ lọc dạng 
tam giác hoặc thậm chí hình chữ nhật vì độ 
phân giải là quá thấp trong miền tần số thấp. 
Hình 5: Băng lọc khoảng cách theo tần số Mel 
Mỗi bộ lọc trong băng lọc được nhân với phổ 
tín hiệu vì vậy chỉ có một giá trị đơn của 
cường độ trên bộ lọc được trả lại. Điều này có 
thể đạt được qua các tính toán của ma trận 
đơn. Kết quả là tổng của biên độ trong dải lọc 
và vì vậy làm giảm độ chính xác tới mức tai 
của con người. 
Hình 6: Phổ sau khi lọc theo thang Mel 
Quá trình độ lệch tần số mel được thực hiện 
theo ba bước sau: 
1. Cố định vùng giá trị dưới mỗi bộ lọc và 
đôi khi đưa thang về 1. Đặt M = số băng lọc 
yêu cầu 
2. Phân bố đều trên thang tần số Mel 
3. Chuyển đổi từ Hz sang si'ω trên thang 
tuyến tính. Mối quan hệ giữa mel và frq được 
cho bởi công thức: 
 m=ln(1+f/700)*1000/ln(1+1000/700) (4) (5) 
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 33 - 38
37 
KẾT QUẢ THỰC NGHIỆM 
Sử dụng F0 
Chuẩn bị dữ liệu 
Dữ liệu bao gồm 20 bài hát thiếu nhi nổi tiếng 
thế giới  
childSong4public/QBSH-corpus/. 
Trong các cấu trúc file âm thanh thì MIDI là 
định dạng file đơn giản, kích cỡ nhỏ gọn 
nhưng vẫn biểu diễn được giai điệu âm 
nhạc.Trong bước huấn luyện, chương trình sử 
dụng 20 bản nhạc định dạng MIDI. Khi tìm 
kiếm chương trình thử nghiệm trên 20 file âm 
thanh PCM Wave tần số lấy mẫu 8 KHz, mã 
hóa 8 bít / mẫu, thu từ các điệu ngân nga 
không lời (humming) hoặc các đoạn hát 
không nhạc (singing) với giai điệu tương ứng 
với 45 bản nhạc MIDI đã huấn luyện. 
Các tham số thực nghiệm 
Cao độ Pitch được tính theo phương pháp tự 
tương quan ACF (AutoCorrelation Function) 
với các tham số: kích cỡ khung là 256 ms, 
không chồng lấp. Sau khi tính Pitch bằng hàm 
ACF, pitch được làm trơn bằng lọc trung vị. 
Phương pháp phân lớp sử dụng thuật toán thời 
gian động DTW tiến hành so sánh chuỗi Pitch 
đầu vào cần tìm kiếm tính từ file Wave với lần 
lượt các chuỗi Pitch của các file MIDI trong cơ 
sở dữ liệu. Thuật toán thời gian động cho phép 
so sánh 2 chuỗi Pitch có độ dài khác nhau với 
sai số nhỏ nhất. Độ tương tự của 2 chuỗi pitch 
sau đó được tính toán bằng khoảng cách Euclid 
để tìm ra chuỗi phù hợp nhất. 
Sử dụng MFCC 
Chuẩn bị dữ liệu 
Vẫn sử dụng dữ liệu trên nhưng được lưu ở 
định dạng PCM wave, tần số lấy mẫu 44 
KHz, mã hóa 16 bit trên một mẫu. Mỗi bài 
hát được trích ra một đoạn ngắn < 5 s sử dụng 
làm mẫu tìm kiếm. 
Các tham số thực nghiệm 
Đặc trưng MFCC được cài đặt với các tham 
số sau : Kích cỡ khung là 512 ms, không sử 
dụng khung chồng lấp, số bộ lọc trong dãy 
băng lọc Mel là 20, số hệ số Ceptral là 12, 
không sử dụng các hệ số đạo hàm Delta, kết 
hợp các hệ số MFCC với 1 hệ số năng lượng. 
Giống như Beth Logan [8], phân lớp bằng 
cách phân hệ số cepstral thành 16 cụm theo 
thuật toán K-means chuẩn. Sử dụng khoảng 
cách Euclidean để tính toán độ tương tự. 
Kết quả thực nghiệm và đánh giá 
Trong cả 2 chương trình thử nghiệm, kết quả 
nhận dạng đúng cuối cùng sau 20 lần thử 
nghiệm đều là 100%. Kết quả này cao hơn kết 
quả đã công bố trong [8] và [4] dù dùng cùng 
thuật toán. Lý do có thể do chương trình 
demo mới thử nghiệm trên bộ cơ sở dữ liệu 
rất nhỏ. Hơn nữa độ dài âm thanh đầu vào 
(trích 1 đoạn từ file âm thanh cần tìm kiếm) 
đủ lớn (so với âm thanh tìm kiếm) trong 
chương trình thử nghiệm 1, độ dài âm thanh 
đầu vào và âm thanh cần tìm kiếm đều là cả 
bài hát trong chương trình thử nghiệm 2. Tỷ 
lệ nhận dạng sẽ giảm xuống khi dùng cơ sở 
dữ liệu lớn hơn (đặc biệt khi trong cơ sở dữ 
liệu có các bài hát có những phần tương tự 
nhau), tỷ lệ nhận dạng và tìm kiếm đúng cũng 
sẽ giảm xuống khi độ dài mẫu âm thanh đầu 
vào là nhỏ. 
Về mặt thời gian, chương trình 1 thực hiện 
huấn luyện và sau đó tìm kiếm hết ~ 4 s với 
một bài hát, chương trình 2 thực hiện tìm 
kiếm cho mỗi file Wave trong khoảng 0.2 s 
với điều kiện đã huấn luyện trước. 
Hình 7: Kết quả chạy chương trình 
Với thử nghiệm trên cả hai phương pháp đều 
cho kết quả tốt. Tuy nhiên, phương pháp 
MFCC tốt hơn khi dữ liệu được trích ra từ 
chính bài hát của tác giả. Còn phương pháp 
cao độ pitch có thể nhận diện được khi đoạn 
dữ liệu tìm kiếm có thể là một tiếng sáo, tiếng 
nhạc hoặc giai điệu của bài hát. 
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 33 - 38
38 
Do đó, với các ứng dụng yêu cầu độ chính xác 
cao mà dữ liệu nhỏ hơn ta có thể áp dụng 
phương pháp MFCC rất tốt còn trong trường 
hợp khi bộ dữ liệu lớn, mà đoạn dữ liệu tìm 
kiếm có thể chỉ là một đoạn là giai điệu của bài 
hát ta có thể áp dụng phương pháp cao độ Pitch. 
KẾT LUẬN 
Để kết quả thực nghiệm chính xác hơn, cần 
xây dựng một cơ sở dữ liệu âm nhạc đủ lớn 
để thử nghiệm. Từ đó sẽ đánh giá được độ 
chính xác, hiệu quả của các phương pháp tìm 
kiếm và có thể đề xuất các phương pháp cải 
tiến thao tác trích đặc trưng và phân lớp của 
hệ thống tìm kiếm. 
Hướng nghiên cứu tiếp theo sẽ là tìm hiểu sâu 
hơn về các phương pháp phân lớp dữ liệu như 
mạng Neural, giải thuật di truyền GA, mô 
hình Markov ẩn HMM, 
TÀI LIỆU THAM KHẢO 
[1]. Phùng Thị Thu Hiền, “Trích chọn đặc trưng 
âm thanh trong bài toán tìm kiếm âm nhạc theo 
nội dung”, Luận văn thạc sỹ Công nghệ thông tin, 
Đại học Thái Nguyên, 12/2009. 
[2]. Phùng Thị Thu Hiền, Thái Quang Vinh, 
Phùng Trung Nghĩa, Lê Tuấn Anh (2009), “Tìm 
kiếm âm nhạc theo nội dung sử dụng đặc trưng 
tần số cơ bản F0 và giải thuật thời gian động 
DTW”, Tạp chí Khoa học & Công nghệ ISSN, 
1859 – 2171, T55 – 59. 
[3]. Beth Logan and Ariel Salomon (2002), “A 
Music Similarity Function Based on Signal 
Analysis”, Cambridge Research Laboratory. 
[4]. S.Blackburn and D. De Roure (1998), “A tool 
for content based navigation of music”, in ACM 
Multimedia. 
[5]. R. Mc Nab, L. Smith, I. Witten, C.Henderson, 
and S.Cunningham (1996), “Towards the digital 
music library: Tune retrieval from acoustic input,” 
in Digital Libraries, pp.11-18 
[6]. Beth Logan and Stephen Chu (2000), “Music 
Summarization Using Key Phrases”, Cambridge 
Research Laboratories. 
[7]. J.T. Foote (1997), “Content-based retrieval 
of Music and Audio,” in SPIE, p.p 138- 147 
SUMMARY 
COMPARING TWO METHOD: SPECTRAL ENVELOPE FEATURE (MFCC) 
AND PITCH IN CONTEND – BASED MUSIC RETRIEVAL 
Phung Thi Thu Hien1*, Doan Xuan Ngoc2, Phung Trung Nghia3 
1College of Technology – TNU 
2Department of Tax – Thai Nguyen province 
3College of Information Communication and Technology 
In state of the art approaches, feature vectors of music signal are built based on their physical 
characteristics as volume, energy, and spectrum. There are many methods to extract feature in 
contend – based music retrieval. Spectral Envelope Feature and Pitch method are Two popular 
methods. This paper presens and compares these methods. 
Key words: Feature Vector, Mel Cepstral, K-means, F0, pitch, DTW. 
Phản biện khoa học: TS. Vũ Việt Vũ – Trường Đại học Kỹ thuật Công nghiệp – ĐH Thái Nguyên 
*
 Tel: 0986060545; Email: pthientng@gmail.com 

File đính kèm:

  • pdfso_sanh_hai_phuong_phap_trich_chon_dac_trung_am_thanh_duong.pdf