Engel

New Member

Download miễn phí Kĩ thuật mã hoá tiếng nói đoán tuyến tính phân tích nhờ tổng hợp





Độ cao hay độ trầm bổng của âm thanh chính là tần số của sóng cơ học
của âm thanh. Âm thanh nào cũng phát ra ởmột đ ộcao nhất định. Độ cao của
âm thanh phụ thuộc vào tần số dao động. Đối với tiếng nói, tần số dao động của
dây thanh quy định độcao giọng nói của con người. Mỗi người có một độ cao
giọng nói khác nhau, độ cao của nữ giới thường cao hơn nam giới và độ cao của
trẻ em thường cao hơn của người lớn.



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

gồm cấu hình khoang
miệng, các đồ thị dạng sóng tín hiệu và các đồ thị phổ. ở đây chúng ta chỉ quan
tâm tới dạng biểu diễn đồ thị phổ. Về mặt lý thuyết, các cực đại của biểu diễn
phổ của tín hiệu nguyên âm chính là các tần số cộng hưởng (formants) tạo nên
nguyên âm. Giá trị của các các formant đầu tiên (2 hay 3 formants đầu tiên) là
yếu tố quyết định cho phép chúng ta nhận dạng được nguyên âm. Do nhiều yếu
tố biến thiên như sự khác nhau về giới tính, về độ tuổi, tình trạng tinh thần của
người nói và nhiều yếu tố ngoại cảnh khác, đối với một nguyên âm xác định các
giá trị formant cũng có một sự biến thiên nhất định. Tuy nhiên sự khác biệt về
giá trị các fornants giữa các nguyên âm khác nhau lớn hơn nhiều; và trong không
gian formant chúng ta có thể xác định một cách tương đối các vùng riêng biệt
cho từng nguyên âm. Hình 1.2 minh họa một đồ thị kinh điển của các giá trị
formant đầu tiên và thứ hai của 10 nguyên âm cùng với sự phân vùng cho các
nguyên âm. ở đây chúng ta cũng thấy có những sự nhập nhằng trong phát âm thể
hiện ở một số chỗ chồng chéo lên nhau giữa các vùng.
Kĩ thuật mã hoá tiếng nói đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
7
i I ε
ae
ε
Λ
a
c
u
U
0 200 400 600 800 1000 1200 1400
1000
1500
2000
2500
3000
3500
4000
F1(Hz)
F
2(
H
Z
)
Hình 1.2 Đồ thị theo các formant F1, F2 cho 10 nguyên âm
được thực hiện với nhiều đối tượng người nói khác nhau
• Phụ âm
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những
điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành. Dòng không
khí tại chỗ đóng của vòm miệng tạo ra phụ âm bật. Những phụ ân xát được tạo
ra từ chỗ co thắt lớn nhất và các âm tắc xát được tạo ra từ khoảng giữa. Phụ âm
có đặc tính hữu thanh và vô thanh tuỳ từng trường hợp vào dây thanh có dao động để trở
thành cộng hưởng hay không. Đặc tính của phụ âm tuỳ từng trường hợp vào tính chu kỳ
của dạng sóng, phổ tần số, thời gian tồn tại và sự chuyển dẫn âm.
• Tỷ suất thời gian
Trong khi nói chuyện, các khoảng nói chuyện và khoảng nghỉ xen kẽ
nhau. Phần trăm thời gian nói trên tổng thời gian nói và nghỉ được gọi là tỷ suất
thời gian. Giá trị này biến đổi tuỳ từng trường hợp vào tốc độ nói và từ đó ta có thể phân
loại thành nói nhanh, nói chậm hay trung bình.
• Hàm năng lượng thời gian ngắn
Hàm năng lượng thời gian ngắn được tính bằng cách chia tín hiệu tiếng
nói thành nhiều khung có chứa N mẫu và tính diện tích trung bình của tổng các
Kĩ thuật mã hoá tiếng nói đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
8
mẫu tín hiệu trong mỗi khung. Các khung này được đưa qua một cửa sổ có dạng
như sau:
⎪⎪⎩
⎪⎪⎨


≤≤=
n
NnnW
nW
0
0)(
)(
Thông thường có ba dạng cửa sổ được sử dụng, đó là cửa sổ chữ nhật, cửa
sổ Hanning và Hamming.
Hàm năng lượng thời gian ngắn được tính như sau:
{ }∑−
=
+=
1
0
2)(*)(
N
n
m nWmnxE
Hàm năng lượng thời gian ngắn cho âm hữu thanh thường lớn hơn âm vô
thanh.
• Tần số vượt điểm không
Tần xuất vượt qua điểm không là số lần biên độ tín hiệu tiếng nói vượt
qua giá trị không trong một khoảng thời gian cho trước. Thông thường giá trị
này đối với âm vô thanh lớn hơn âm hữu thanh do đặc tính ngẫu nhiên của âm
vô thanh. Do đó tần suất vượt qua điểm không là tham số quan trọng để phân
loại âm vô thanh và âm hữu thanh.
• Phát hiện điểm cuối
Trong sử lý tín hiệu tiếng nói, việc xác định khi nào bắt đầu và kết thúc
quá trình nói là một công việc hết sức quan trọng. Trong một môi trường có
nhiều tiếng ồn và môi trường có nhiều người nói thì việc phát hiện điểm cuối là
hết sức khó khăn. Đã có một số phương pháp để phát hiện điểm cuối của tiếng
nói.
• Tần số cơ bản
Dạng sóng của tiếng nói bao gồm hai phần: Phần giống nhiễu trong đó
biên độ thay đổi ngẫu nhiên và phần tuần hoàn. Phần tín hiệu có tính chất chu kỳ
Kĩ thuật mã hoá tiếng nói đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
9
có chứa các thành phần tần số có dạng điều hoà. Tần số thấp nhất là tần số cơ
bản và chính là tần số dao động của dây thanh. Đối với những người nói khác
nhau thì tần số cơ bản cũng khác nhau và tần số cơ bản của trẻ em thường cao
hơn của người lớn và của nữ giới thì cao hơn của nam giới.
Bảng 1: Một số giá trị của tần số cơ bản ứng với giới tính và tuổi
Người nói Giá trị tần số cơ bản
Nam 80-200
Nữ 150-450
Trẻ em 200-600
Đối với hai âm có cùng cường độ, cùng độ cao sẽ được phân biệt bởi tính
tuần hoàn. Một âm hữu thanh có tín hiệu gần như tuần hoàn, khi được phân tích
phổ sẽ xuất hiện một vạch tại vùng tần số rất thấp. Vạch này đặc trưng cho tính
tuần hoàn cơ bản hay đó chính là tần số cơ bản của âm. trong khi giao tiếp bình
thường tần số cơ bản thay đổi liên tục tạo nên ngữ điệu cho tiếng nói.
• Formant
Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên dộ cao nhất xét
trong một khoảng nào đó(còn được gọi là cực trị địa phương) xác định một
formant. Ngoài tần số, formant còn được xác định bởi biên độ và dải thông của
chúng. Về mặt vật lý, các tần số formant tương ứng với các tần số cộng hưởng
của tuyến âm. trong xử lý tiếng nói, để mô phỏng lại tuyến âm người ta phải xác
định được tham số formant đối với từng loại âm vị. Do đó việc đánh giá và ước
tính formant là rất quan trọng.
Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính
của người nói và phụ thuộc vào âm vị tương ứng với formant đó. Đồng thời
formant còn phụ thuộc vào âm vị trước và sau đó. Về cấu trúc tự nhiên, tần số
formant có liên hệ chặt chẽ với hình dạng và kích thước của tuyến âm , thông
thường trong phổ tần số của tín hiệu có khoảng 6 formant, nhưng chỉ có 3
Kĩ thuật mã hoá tiếng nói đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
10
formant đầu tiên là ảnh hưởng quan trọng đến đặc tính âm vị. Các formant có giá
trị trong khoảng từ vài trăm đến vài nghìn Hz.
Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ từng trường hợp vào người
nói trong điều kiện phát âm nhất định. Mặc dù phạm vi của các tần số formant
tương ứng với mỗi nguyên âm có thể trùng lên nhau, nhưng vị trí giữa formant là
không đổi và sự xê dịch các formant là song song.
Ngoài formant, các âm mũi còn có các tần số bị suy giảm gọi là phản
formant (anti-formant). Phản formant được tạo nên khi luồng khí đi qua khoang
mũi. Các formant tương ứng với các điểm cực của hàm truyền đạt vì tại lân cận
các điểm cực trị giá trị của hàm truyền đạt là rất lớn, tương tự các phản formant
tương ứng với các điểm không của hàm truyền đạt.
1.1.3 Phân loại đơn g...
 

Các chủ đề có liên quan khác

Top