Luận văn: Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn : Luận văn ThS Kỹ thuật Điện tử - Viễn thông : 2 07 00
Nhà xuất bản: ĐHCN
Ngày: 2006
Chủ đề: Mô hình Markov ẩn
Nhận dạng lời nói
Tin học
Tiếng Việt
Wavelet
Miêu tả: 117 tr. + CD-ROM
Tổng quan về nhận dạng tiếng nói, xử lý tiếng nói, rút trích vector đặc trưng và nghiên cứu về biến đổi wavelet, về mô hình Markov ẩn HMM và ứng dụng trong nhận dạng tiếng nói. Khảo sát về các đặc điểm ngữ âm của tiếng Việt như âm vị tiếng Việt, thanh điệu tiếng Việt. Từ đó xây dựng hệ thống nhận dạng thanh điệu tiếng Việt theo chu kỳ, nhận dạng tiếng Việt nguyên từ rời rạc có áp dụng phân lớp theo thanh điệu, dùng vectơ đặc trưng SCWT và mô hình HMM trái phải 5 trạng thái. Đồng thời xây dựng bộ tiền xử lý nâng cao chất lượng tiếng nói dùng kỹ thuật triệt nhiễu kết hợp kỹ thuật trừ phổ và kỹ thuật triệt nhiễu bằng wavelet
Luận văn ThS. Kỹ thuật vô tuyến điện tử và thông tin liên lạc -- Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội, 2006
MỤC LỤC
Lời cam đoan.............................................................................................................1
Mục lục......................................................................................................................2
Danh mục các ký hiệu, các chữ viết tắt.....................................................................6
Danh mục các bảng....................................................................................................8
Danh mục các hình vẽ, đồ thị....................................................................................9
MỞ ĐẦU .................................................................................................................13
Chương 1. TỔNG QUAN ....................................................................................17
1.1 Nhận dạng..........................................................................................................17
1.2 Nhận dạng tiếng nói ..........................................................................................18
1.2.1 Xử lý âm thanh................................................................................................18
1.2.2 Phân loại nhận dạng tiếng nói........................................................................19
1.2.2.1 Nhận dạng từ liên tục và nhận dạng từ cách biệt ........................................19
1.2.2.2 Nhận dạng phụ thuộc người nói và độc lập người nói................................20
1.2.3 Hệ thống nhận dạng tiếng nói tự động...........................................................21
1.2.4 Lý thuyết nhận dạng tiếng nói .......................................................................23
1.2.4.1 Rút trích vector đặc trưng............................................................................23
1.2.4.2 Phân lớp.......................................................................................................25
Chương 2. XỬ LÝ TIẾNG NÓI - RÚT TRÍCH VECTOR ĐẶC TRƯNG ........28
2.1 Xử lý tiếng nói...................................................................................................28
2.1.1 Lấy mẫu tín hiệu ..........................................................................................28
2.1.2 Bộ lọc tín hiệu................................................................................................29
2.1.3 Dò tìm điểm cuối (end-point detection).........................................................30
2.2 Rút trích đặc trưng.............................................................................................31
2.2.1 Các bước rút trích đặc trưng ..........................................................................32
2.2.1.1 Làm rõ tín hiệu ............................................................................................33
2.2.1.2 Phân đoạn thành các khung.........................................................................33
2.2.1.3 Lấy cửa sổ ...................................................................................................343
2.2.2 Các dạng đặc trưng tiếng nói .........................................................................38
2.2.2.1 Biến đổi tín hiệu sang miền tần số ..............................................................39
2.2.2.2 Đặc trưng năng lượng..................................................................................41
2.2.2.3 Đặc trưng MFCC.........................................................................................42
2.2.2.4 Đặc trưng LPC ............................................................................................44
2.2.2.5 Đặc trưng tần số cơ bản..............................................................................47
Chương 3 MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN
DẠNG TIẾNG NÓI................................................................................................55
3.1 Mô hình Markov ẩn...........................................................................................55
3.2 Ứng dụng Mô hình Markov vào nhận dạng tiếng nói.......................................57
3.2.1 Thuật toán tiến ...............................................................................................58
3.2.2 Thuật toán lùi .................................................................................................59
3.2.3 Phương pháp tìm chuỗi trạng thái tối ưu .......................................................60
3.2.4 Thuật toán Viterbi ..........................................................................................61
3.2.5 Ước lượng Baum-Welch.................................................................................63
Chương 4 BIẾN ĐỔI WAVELET VÀ ỨNG DỤNG TRONG XỬ LÝ VÀ
NHẬN DẠNG TIẾNG NÓI..................................................................................65
4.1 Mục đích và ứng dụng của phân tich wavelet.....................................................65
4.1.1 Biến đổi Fourier...............................................................................................65
4.1.2 Biến đổi Fourier thời gian ngắn.......................................................................65
4.1.3 Biến đối wavelet...............................................................................................66
4.2 Các loại biến đổi Wavelet...................................................................................67
4.2.1 Biến đổi Wavelet liên tục CWT.......................................................................67
4.2.2.Biến đổi Wavelet rời rạc DWT........................................................................70
4.2.3 Biến đổi Wavelet gói........................................................................................72
4.3 Ứng dụng biến đổi Wavelet trong xử lý nhiễu và nâng cao chất lượng
tiếng nói.....................................................................................................................73
4.3.1 Phương pháp truyền thống của Dohono và Johnstone.....................................73
4.3.2 Phương pháp khử nhiễu kết hợp kỹ thuật trừ phổ và wavelet.........................75
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi4
4.4 Ứng dụng biến đổi Wavelet trong nhận dạng tiếng nói......................................79
4.4.1 Tổng quan........................................................................................................79
4.4.2 Nhận dạng tiếng nói dùng CWT......................................................................79
4.4.3 Nhận dạng tiếng nói dùng DWT......................................................................81
4.4.4 So sánh SCWT, FWT và các vector đặc trưng truyền thống...........................83
4.5 Rút trích các đặc trưng tiếng Việt dùng biến đổi Wavelet..................................84
4.5.1 Trích formant dùng CWT................................................................................84
4.5.2 Trích chu kỳ Pitch dùng CWT.........................................................................87
Chương 5. KHẢO SÁT VỀ NGỮ ÂM TIẾNG VIỆT ỨNG DỤNG XÂY DỰNG
HỆ THỐNG NHẬN DẠNG THANH ĐIỆU TIẾNG VIỆT ..............................90
5.1 Một số đặc trưng ngữ âm tiếng Việt................................................................90
5.1.1 Thanh điệu....................................................................................................90
5.1.2 Âm vị............................................................................................................90
5.1.3 Trường độ......................................................................................................91
5.2 Một số khảo sát về thanh điệu tiếng Việt.........................................................91
5.2.1 Tổng quan.....................................................................................................91
5.2.2 Thanh 1(thanh ngang)...................................................................................91
5.2.3 Thanh 2 (thanh huyền)..................................................................................92
5.2.4 Thanh 3 (thanh ngã)......................................................................................92
5.2.5 Thanh 4 (thanh hỏi).......................................................................................94
5.2.6 Thanh 5 (thanh sắc).......................................................................................95
5.2.7 Thanh 6 (thanh nặng)....................................................................................96
5.3 Giải pháp nhận dạng theo mô hình âm vị.........................................................99
5.4 Xây dựng mô hình nhận dạng thanh điệu tiếng Việt......................................100
5.4.1 Khối tiền xử lý............................................................................................100
5.4.2 Khối trích chu kỳ Pitch...............................................................................101
5.4.3 Tạo vector đặc trưng V(F0).........................................................................101
5.4.4 Huấn luyện mô hình....................................................................................102
5.4.5 Nhận dạng...................................................................................................1035
5.5 Các kết quả nhận dạng thanh điệu..................................................................104
Chương 6. XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT NGUYÊN
TỪ RỜI RẠC HOÀN CHỈNH.............................................................................106
6.1 Phương pháp sử dụng.....................................................................................106
6.1.1 Tổng quát....................................................................................................106
6.1.2 Tiền xử lý....................................................................................................106
6.1.3 Huấn luyện mẫu..........................................................................................106
6.1.4 Công đoạn nhận dạng..................................................................................107
6.2 Cài đặt hệ thống nhận dạng tiếng Việt nguyên từ rời rạc hoàn chỉnh...............108
6.2.1 Môi trường xây dựng..................................................................................108
6.2.2 Bộ từ dùng cho huấn luyện và nhận dạng...................................................108
6.2.3 Tạo vector đặc trưng V(SCWT)....................................................................109
6.2.4 Phân lớp.........................................................................................................109
6.2.5 Mô hình HMM cho các từ nhận dạng...........................................................109
6.2.6 Kết quả nhận dạng..........................................................................................110
KẾT LUẬN........................................................................................................... 112
1. Các kết quả đạt được của luận văn...................................................................112
2. Những vấn đề còn tồn tại và biện pháp khắc phục...........................................112
3. Các đề xuất.......................................................................................................113
4. Hướng phát triển..............................................................................................113
Tài liệu tham khảo ...................................................................... ............................115
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi6
DANH MỤC CÁC TỪ VIẾT TẮT
VIẾT TẮT TIẾNG ANH TIẾNG VIỆT
AMDF Average Magnitude
Difference Function
Hàm hiệu biên độ trung bình
ANN Affriciant Neural Network Mạng Neural nhân tạo
ASR Automatic Speech Recognition Hệ thống nhận dạng tiếng nói tự động
CLIP Center Clipping Pitch Detector Phương pháp trích chu kỳ pitch CLIP
COR Autocorrelation coefficients Các hệ số tự tương quan
CTR Cofficient to Thershold Ratio Tỷ lệ hệ số trên ngưỡng
CWT Continuous Wavelet Transform Biến đổi Wavelet liên tục
DP Dynamic Programming Phương pháp lập trình Dynamic
DTW Dynamic Time Warping Phương pháp nhận dạng tiếng nói DTW
DWT Discrete Wavelet Transform Biến đổi Wavelet rời rạc
FCT Fast Cosine Transform Biến đổi Cosine nhanh
FFT Fast Fourier Transform Biến đổi Fourier nhanh
FIR Finite Impulse Response Bộ lọc đáp ứng xung hữu hạn
FT Fourier Transform Biến đổi Fourier
FWT Fast Wavelet Transform Biến đổi Wavelet nhanh
GMM Gausian Mixture Model Phương pháp nhận dạng GMM
HMM Hidden Markov Model Mô hình Markov ẩn
IDWT Inverse Discrete Wavelet
Transform
Biến đổi wavelet rời rạc ngược
IIR Infinite Impulse Response Bộ lọc đáp ứng xung vô hạn
JPEG Joint Photographic Experts
Group
Chuẩn nén ảnh JPEG
LAR Log Area Ratio coefficients Vector đặc trưng tiếng nói trên miền
Logarit
LPC Linear Prediction Filter
Cofficient
Hệ số tiên đoán tuyến tính7
LSP Line Spectrum Pairs Vector đặc trưng tiếng nói trên miền tần
số LSP
MFCC Mel Frequency Ceptral
Cofficient
Hệ số tần số Ceptral thang Mel
MRA Multi-Resolution Analysis Phân tích đa phân giải
PARCOR Partial Correlation Cofficients Hệ số tương quan thành phần
PLP Perceptional Linear Prediction Hệ số tiên đoán tri giác tuyến tính
SCWT Sampled Continuous Wavelet
Transform
Biến đổi Wavelet liên tục rút gọn
SIFT Simplified Inverse Filter
Tracking
Phương pháp ước lượng lỗi SIFT
STFT Short Time Fourier Transform Biến đổi Fourier thời gian ngắn
SVM Support Vector Machine Phương pháp nhận dạng SVM
VAD Voice Activity Detector Bộ phát hiện tiếng nói
VQ Vector Quantilization Phương pháp nhận dạng ước lượng vector
VQ
VUS Voice, Unvoice and Silence Kỹ thuật dò tìm điểm cuối theo mức năng
lượng VUS
WT Wavelet Transform Biến đổi Wavelet
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi8
DANH SÁCH BẢNG BIỂU
Bảng 2.1 Phân chia FFT chuỗi tín hiệu 16 điểm.....................................................41
Bảng 5.1 Kết quả nhận dạng thanh điệu ..............................................................105
Bảng 6.1 Kết quả phân lớp thanh điệu..................................................................110
Bảng 6.2 Kết quả nhận dạng trên tập dữ liệu huấn luyện.....................................110
Bảng 6.3 Kết quả nhận dạng trên tập dữ liệu mới.................................................1119
DANH SÁCH HÌNH VẼ
Hình 1.1: Sơ đồ nhận dạng tổng quát .............................................................17
Hình 1.2: Các lĩnh vực trong xử lý tiếng nói ..................................................18
Hình 1.3: Ranh giới giữa “cô” và “ấy” không rõ ràng .................................19
Hình 1.4: Người nói khác nhau sẽ phát âm khác nhau...................................21
Hình 1.5: Mô hình nhận dạng bán độc lập người nói ....................................21
Hình 1.6: Các thành phần cơ bản của hệ thống ASR .....................................22
Hình 1.7: Các dạng cửa sổ thường dùng ........................................................24
Hình 1.8: Tổng quát quá trình rút trích vector đặc trưng ..............................25
Hình 1.9: Các kỹ thuật nhận dạng tiếng nói và xu hướng phát triển .............25
Hình 1.10: HMM với 3 trạng thái và trọng số chuyển trạng thái...................27
Hình 2.1: Ví dụ về lấy mẫu tín hiệu f(t) trên miền thời gian..........................28
Hình 2.2: Minh họa hoạt động bộ lọc FIR......................................................30
Hình 2.3: Minh họa hoạt động bộ lọc IIR.......................................................30
Hình 2.4: Dò tìm điểm cuối dựa vào mức năng lượng ...................................31
Hình 2.5: Sơ đồ rút trích vector đặc trưng tổng quát .....................................32
Hình 2.6: Sơ đồ rút trích đặc trưng chi tiết ....................................................32
Hình 2.7: Phân đoạn tiếng nói thành các khung chồng lấp ...........................34
Hình 2.8a Âm „a‟ cửa sổ chữ nhật 512 điểm (45ms trái) và 64 điểm (5,6ms
phải).................................................................................................................36
Hình 2.8b Âm „a‟ cửa sổ Hamming 512 điểm (45ms trái) và 64 điểm (5,6ms
phải).................................................................................................................36
Hình 2.8c Âm „a‟ cửa sổ Hanning 512 điểm (45ms trái) và 64 điểm (5,6ms
phải).................................................................................................................37
Hình 2.9: Sự khác biệt giữa các dạng cửa sổ tín hiệu ....................................38
Hình 2.10: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz..............................42
Hình 2.11: Các bước trích đặc trưng MFCC .................................................43
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi10
Hình 2.12: Bộ lọc trên thang Mel ...................................................................43
Hình 2.13: Bộ lọc trên tần số thật...................................................................43
Hình 2.14: Minh họa các bước biến đổi MFCC .............................................44
Hình 2.15: Sơ đồ xử lý LPC dùng cho trích đặc trưng tiếng nói...................45
Hình 2.16: Hình dạng tín hiệu tiếng nói .........................................................53
Hình 2.17: Kết quả trích F0............................................................................54
Hình 2.18: Kết quả sau khi lọc Median ..........................................................54
Hình 3.1: Minh họa hoạt động của mô hình Markov ẩn.................................55
Hình 3.2: Mô hình Left - Right........................................................................57
Hình 3.3: Mô hình Bakis .................................................................................57
Hình 3.4: Mô hình Tuyến tính .........................................................................57
Hình 3.5:Minh họa thuật toán tiến..................................................................59
Hình 3.6:Minh họa thuật toán lùi ...................................................................59
Hình 3.7: Ví dụ minh họa thuật toán Viterbi ..................................................62
Hình 3.8:Ví dụ minh họa thuật toán Viterbi (tt) .............................................62
Hình 3.9: Ví dụ minh họa so khớp dùng thuật toán tiến-lùi ...........................63
Hình 3.10: Minh họa ước lượng Baum - Welch..............................................64
Hình 4.1: Biến đổi Fourier..............................................................................65
Hình 4.2: Biến đổi Fourier thời gian ngắn .....................................................66
Hình 4.3: Phân tích wavelet ............................................................................67
Hình 4.4: Wavele dịch .....................................................................................67
Hình 4.5: Wavele tỉ lệ ......................................................................................68
Hình 4.6: Bước 1. So sánh Wavele với tín hiệu nguyên thủy..........................69
Hình 4.7: Bước 2. Dịch Wavelet......................................................................69
Hình 4.8: Bước 4. Định tỷ lệ............................................................................69
Hình 4.9: Scalogram của CWT........................................................................70
Hình 4.10: Lọc một tầng cho xấp xỉ và chi tiết...............................................71
Hình 4.11: Giảm tần số lấy mẫu......................................................................71
Hình 4.12: Phân tách đa mức..........................................................................7211
Hình 4.13: Tái tạo Wavelet..............................................................................72
Hình 4.14: Tăng mẫu.......................................................................................73
Hình 4.15: Quá trình đặt ngưỡng....................................................................75
Hình 4.16: Sơ đồ khối hệ thống khử nhiễu kết hợp kỹ thuật trừ phổ và
wavelet.............................................................................................................75
Hình 4.17: Sơ đồ chi tiết khối trừ phổ.............................................................76
Hình 4.18: Ước lượng ngưỡng cho khung thứ p và bank con thứ i................78
Hình 4.19: Morlet Wavelet..............................................................................81
Hình 4.20: SCWT của từ “this”......................................................................81
Hình 4.21: Deubechies DB8............................................................................82
Hình 4.22: FWT DB8 của từ “this”................................................................82
Hình 4.23: So sánh tỉ lệ nhận dạng với nhận dạng nguyên từ rời rạc dùng
MFCC, SCWT, FWT........................................................................................83
Hình 4.24: So sánh tỉ lệ nhận dạng đúng với nhận dạng âm tiết dùng MFCC
và SCWT .........................................................................................................84
Hình 4.25: Trích formant dùng CWT..............................................................86
Hình 4.26: Trích chu kỳ pitch dùng CWT.......................................................88
Hình 5.1: Thanh ngang...................................................................................92
Hình 5.2: Thanh huyền....................................................................................92
Hình 5.3a: Thanh ngã bị tách đôi...................................................................93
Hình 5.3b: Thanh ngã không bị tách đôi........................................................93
Hình 5.4: Thanh hỏi........................................................................................94
Hình 5.5a: Thanh sắc (trường hợp a).............................................................95
Hình 5.5b: Thanh sắc (trường hợp b).............................................................96
Hình 5.6a: Thanh nặng (trường hợp a)..........................................................97
Hình 5.6b: Thanh nặng (trường hợp b)..........................................................97
Hình 5.7: Minh họa việc nhận dạng âm vị trong HMM .................................99
Hình 5.8: Mô hình nhận dạng thanh điệu tiếng Việt.....................................100
Hình 5.9: Tín hiệu tuần hoàn của nguyên âm [o] trong tiếng „hỏi‟..............101
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi12
Hình 5.10: Quá trình khởi tạo các tham số...................................................103
Hình 5.11: Sơ đồ khối hệ nhận dạng thanh điệu tiếng Việt..........................104
Hình 6.1 Mô hình tổng quát hệ nhận dạng nguyên từ tiếng Việt...................106
Hình 6.2: Công đoạn huấn luyện mẫu..........................................................106
Hình 6.3: Công đoạn nhận dạng...................................................................108
Hình 6.4 Mô hình ngôn ngữ của hệ nhận dạng.............................................110PDF Merger
Thank you for evaluating AnyBizSoft PDF
Merger! To remove this page, please
register your program!
Go to Purchase Now>>
 Merge multiple PDF files into one
 Select page range of PDF to merge
 Select specific page(s) to merge
 Extract page(s) from different PDF
files and merge into one
AnyBizSoft
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi13
MỞ ĐẦU
Thông tin tiếng nói là loại hình thông tin phổ biến nhất trong các hệ
thống viễn thông hiện nay. Do vậy lĩnh vực nghiên cứu về tiếng nói và xử lý
tiếng nói được rất nhiều nhà nghiên cứu trong ngành điện tử viễn thông quan
tâm. Về cơ bản tiếng nói là một loại tín hiệu một chiều điển hình nên các kiến
thức về xử lý tín hiệu hoàn toàn có thể áp dụng với tín hiệu tiếng nói. Đó cũng
là một điều thuận lợi đối với những nhà nghiên cứu về xử lý tiếng nói vì lý
thuyết và công nghệ xử lý tín hiệu đã có những bước phát triển to lớn và được
ứng dụng rộng rãi trong thời gian gần đây. Xử lý tiếng nói bao gồm nhiều lĩnh
vực như triệt nhiễu và nâng cao chất lượng tiếng nói, mã hóa và nén tiếng nói,
tổng hợp tiếng nói, nhận dạng tiếng nói,...
Lĩnh vực nhận dạng tiếng nói có nhiều ứng dụng trong thực tế như điều
khiển (thiết bị, robot, máy tính) bằng tiếng nói, chuyển tiếng nói thành văn bản,
dịch tự động, đặt hàng, giao dịch ngân hàng tự động qua mạng điện thoại, quay
số điện thoại bằng tiếng nói, hộp thư thoại tự động,... Nhận dạng tiếng nói đã
được nghiên cứu nhiều trên thế giới và thu được nhiều kết quả quan trọng, một
số sản phẩm nhận dạng tiếng nói đã được ứng dụng trong thực tiễn. Tuy nhiên
mức độ chính xác của hầu hết các hệ thống nhận dạng là chưa thật cao, do vậy
tính ứng dụng thực tiễn còn thấp. Đặc biệt, do vấn đề trên thế giới có nhiều
ngôn ngữ, mỗi ngôn ngữ lại có những đặc điểm ngữ âm riêng, nên rất khó có
thể xây dựng được một hệ thống nhận dạng tiếng nói sử dụng tốt cho tất cả các
ngôn ngữ. Trong khi các hệ thống nhận dạng tiếng nói tiếng Anh hiện nay cho
độ chính xác khá cao thì các hệ thống nhận dạng tiếng Việt, tiếng Thái,... có độ
chính xác chưa cao và cần nghiên cứu nhiều hơn nữa mới có thể ứng dụng
nhiều trong thực tiễn.
Tại Việt Nam, ngay từ khi Công nghệ Viễn thông và Công nghệ Thông
tin mới bắt đầu phát triển đầu những năm 80 đã có những nhà nghiên cứu mạnh
dạn đi vào lĩnh vực nhận dạng tiếng nói tiếng Việt (GS.TSKH Bạch Hưng14
Khang, nguyên Viện trưởng Viện Công nghệ thông tin, Viện Khoa học &Công
nghệ Việt Nam). Từ đó đến nay nhiều công trình nghiên cứu về nhận dạng tiếng
Việt đã ra đời và thu được những kết quả quan trọng [1, 2, 5, 6, 7, 10, 11, 12,
15, 16], tuy nhiên một thực tế là hiện nay vẫn chưa có một hệ thống nhận dạng
tiếng Việt nào hoàn chỉnh, chính xác có tính ứng dụng cao trong thực tiễn. Vì
thế những nghiên cứu về nhận dạng tiếng Việt vẫn sẽ là một trong những hướng
nghiên cứu “nóng” trong thời gian tới tại Việt Nam.
Biến đổi wavelet ra đời được ví như một cuộc cách mạng trong lĩnh vực
xử lý tín hiệu, biến đổi wavelet đã được sử dụng thay thế biến đổi Fourier
truyền thống trong rất nhiều hệ thống xử lý tín hiệu. Trong lĩnh vực xử lý, nhận
dạng tiếng nói, biến đổi wavelet cũng có nhiều ứng dụng. Trên thế giới đã có
những hệ thống nhận dạng tiếng Anh dùng biến đổi wavelet cho độ chính xác
rất cao. Tại Việt Nam cũng mới bắt đầu có những nghiên cứu sử dụng biến đổi
wavelet để rút trích vector đặc trưng trong nhận dạng tiếng Việt [15], tuy nhiên
những nghiên cứu này cũng mới dừng lại ở mức độ kiểm chứng một phương
pháp mới trong nhận dạng tiếng Việt chứ chưa xây dựng được một hệ thống
nhận dạng tiếng Việt hoàn chỉnh hiệu quả.
Ngoài việc xác định được vector đặc trưng hiệu quả, để hệ thống nhận
dạng là độc lập người nói, ít phụ thuộc vào môi trường và điều kiện khi nói
(bản chất của tiếng nói là cùng một từ có thể được phát âm khác nhau đối với
mỗi người và với bản thân một người trong các điều kiện khác nhau) cũng như
tăng số lượng từ nhận dạng thì công việc phân lớp và huấn luyện mẫu là rất
quan trọng. Có nhiều phương pháp để phân lớp và huấn luyện mẫu như sử dụng
mạng Neural nhân tạo (ANN), mô hình Markov ẩn (HMM), mô hình SVM, ...
Đối với hầu hết các ngôn ngữ trên thế giới như tiếng Anh, mô hình HMM được
xem là mô hình hiệu quả nhất, hầu hết các nghiên cứu hiện nay về nhận dạng
tiếng Việt sử dụng phương pháp ANN [1, 2, 5, 7,11], một số khác đi theo
hướng tiếp cận dùng HMM [4, 13].
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi15
Tiếng Việt là ngôn ngữ có thanh điệu, điểm khác biệt lớn nhất của tiếng
Việt so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp là thanh điệu. So với
các ngôn ngữ thanh điệu khác như tiếng Thái, tiếng Hoa, tiếng Việt lại có các
đặc điểm ngữ âm của thanh điệu riêng. Bài toán nhận dạng thanh điệu là một
bài toán đã được nghiên cứu nhiều trong nhận dạng tíếng Việt [2, 12, 16]. Một
sự khác biệt nữa của tiếng Việt so với các ngôn ngữ khác là các đặc điểm ngữ
âm của âm vị. Do sự khác biệt này, mô hình nhận dạng theo âm vị trong tiếng
Việt cũng có những điểm khác biệt so với các hệ thống nhận dạng khác.
Luận văn này thừa kế các vấn đề lý thuyết đã được nghiên cứu và kiểm
chứng trong và ngoài nước, sử dụng các nghiên cứu về biến đổi wavelet và mô
hình HMM để áp dụng đề xuất một phương pháp nhận dạng thanh điệu tiếng
Việt theo chu kỳ pitch và xây dựng hệ thống nhận dạng thanh điệu theo chu kỳ
pitch. Kết quả nhận dạng thanh điệu thu được là 95 %.
Tiếp theo, luận văn cũng đề xuất một phương pháp nhận dạng tiếng Việt
nguyên từ rời rạc hoàn chỉnh. Phương pháp này sử dụng mô hình nhận dạng
thanh điệu đã tiếng Việt đã khảo sát để phân lớp và sử dụng vector đặc trưng là
các hệ số SCWT biến đổi sang miền Ceptral.
Ngoài việc nhận dạng tiếng nói thu âm sẵn, một hệ thống thu âm và nhận
dạng tiếng nói trực tiếp từ micro cũng được xây dựng với bộ tiền xử lý nâng
cao chất lượng tiếng nói dùng một phương pháp triệt nhiễu kết hợp kỹ thuật trừ
phổ và kỹ thuật triệt nhiễu dùng biến đổi wavelet.
Các kết quả thu được độ chính xác của hệ thống nhận dạng là 91 % kém
hơn một chút so với các hệ thống nhận dạng truyền thống dùng MFCC và
ANN. Mặc dù đã có nhiều nghiên cứu nhận dạng tiếng Việt dùng MFCC và
ANN, đã có nhiều cải tiến, nhiều đề xuất nhưng độ chính xác của hệ thống nhận
dạng không tăng được nhiều. Trong hoàn cảnh đó, việc xây dựng một hệ thống
nhận dạng dùng phương pháp khác cho chất lượng gần tương đương cũng rất có
ý nghĩa. Nếu được đầu tư nghiên cứu nhiều hơn, phương pháp nhận dạng tiếng
Việt dùng SCWT và HMM có phân lớp thanh điệu theo chu kỳ pitch sẽ là một16
phương pháp hứa hẹn có khả năng nâng cao được độ chính xác của hệ thống
nhận dạng và có thể ứng dụng trong thực tiễn.
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi17
Chương 1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI
1.1 Nhận dạng
Nhận dạng của loài người là một quá trình hoàn hảo, đó là sự quan sát đối
tượng cần nhận dạng, ghi nhận lại những đặc trưng của đối tượng, phân lớp đối
tượng và có sử dụng khả năng phán đoán suy luận để phân biệt đối tượng đó với đối
tượng khác (trong một tập gần như vô hạn đối tượng).
Trong khi đó, nhận dạng tự động – nhận dạng bằng công cụ máy vi tính chỉ
đơn giản là quá trình phân biệt tín hiệu này với tín hiệu khác (trong một tập hữu hạn
các tín hiệu), quá trình này được thực hiện bằng cách thực hiện các bước tổng quát
sau (như trong hình 1.1).
Hình 1.1 Sơ đồ nhận dạng tổng quát
- Thu nhận tín hiệu và trích đặc trưng: thu nhận tín hiệu cần nhận dạng, khử
nhiễu, lọc tín hiệu (tiền xử lý) và rút ra các đặc trưng của tín hiệu
- Học mẫu: phân lớp các nhóm vector đặc trưng của từng nhóm tín hiệu
(bằng các thuật giải Heristic, bằng cách sử dụng mạng Neural, bằng các thuật toán
K-means, Batchelor- Wilkins, ……). Quá trình này tạo ra các lớp tín hiệu, mỗi lớp
đặc trưng cho từng nhóm tín hiệu.18
- Nhận dạng, so khớp mẫu: tìm mối liên hệ giữa tín hiệu cần nhận dạng và các
lớp tín hiệu được tạo ra ở bước trước (bằng cách thông qua quy tắc người láng giềng
gần nhất chẳng hạn). Nếu như tín hiệu đó so khớp nhất (và mức độ so khớp thỏa
mãn một ngưỡng nào đó) ứng với một lớp tín hiệu nào thì hệ thống nhận dạng xác
định tín hiệu đó thuộc vào nhóm tín hiệu đó với một tỉ lệ nhất định gọi là độ chính
xác của hệ thống nhận dạng (tỉ lệ này dĩ nhiên là càng cao càng tốt).
1.2 Nhận dạng tiếng nói
1.2.1 Xử lý âm thanh
Khi âm thanh được máy vi tính hỗ trợ thì nhu cầu xử lý âm thanh đã xuất
hiện. Các nhu cầu này đã tạo ra nhiều lĩnh vực ứng dụng trong thực tế. Chẳng hạn
như: tổng hợp âm thanh (synthesis), nén âm thanh (compression), nhận dạng người
nói (speaker recognition), nhận dạng tiếng nói (speech recognition)… Các lĩnh
vực ứng dụng khác nhau của xử lý tiếng nói được thể hiện qua hình 1.2.
Xử lý âm thanh đóng một vai trò quan trọng trong quá trình nhận dạng tiếng
nói, nó cần trong việc lọc nhiễu tín hiệu, biến đổi tín hiệu, rút trích vector đặc trưng,…
Hình 1.2: Các lĩnh vực trong xử lý tiếng nói
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi19
1.2.2 Phân loại nhận dạng tiếng nói
1.2.2.1 Nhận dạng từ liên tục và nhận dạng từ cách biệt
Một hệ nhận dạng tiếng nói có thể là một trong hai dạng: nhận dạng liên
tục và nhận dạng từng từ.
Nhận dạng liên tục tức là nhận dạng tiếng nói được phát liên tục trong một
chuỗi tín hiệu, chẳng hạn như một câu nói, một mệnh lệnh hay một đoạn văn
được đọc bởi người dùng. Các hệ thống loại này rất phức tạp, nó phức tạp ở chỗ các
từ được phát liên tục khó xử lý kịp (nếu cần thời gian thực), hay khó tách ra nếu như
người nói liên tục không có khoảng nghỉ (thông thường rất hay xảy ra trong thực tế).
Kết quả tách từ ảnh hưởng rất lớn đến các bước sau, cần xử lý thật tốt trong quá
trình này.
Trái lại, đối với mô hình nhận dạng từng từ, mỗi từ cần nhận dạng được phát
âm một cách rời rạc, có các khoảng nghỉ trước và sau khi phát âm một từ. Mô hình
loại này dĩ nhiên đơn giản hơn mô hình nhận dạng liên tục, đồng thời cũng có
những ứng dụng thực tiễn như trong các hệ thống điều khiển bằng lời nói, quay số
bằng giọng nói…, với độ chính xác khá cao, tuy nhiên khó áp dụng rộng rãi đối với
mô hình trên.
Hình 1.3: Ranh giới giữa “cô” và “ấy” không rõ ràng20
1.2.2.2 Nhận dạng phụ thuộc người nói và độc lập người nói
Đối với nhận dạng phụ thuộc người nói thì mỗi một hệ nhận dạng chỉ phục vụ
được cho một người, và nó sẽ không hiểu người khác nói gì nếu như chưa được
huấn luyện lại từ đầu. Do đó, hệ thống nhận dạng người nói khó được chấp nhận
rộng rãi vì không phải ai cũng đủ khả năng kiến thức và nhất là kiên nhẫn để huấn
luyện hệ thống. Đặc biệt là hệ thống loại này không thể ứng dụng ở nơi công cộng.
Ngược lại, hệ thống nhận dạng độc lập người nói thì lý tưởng hơn, ứng dụng
rộng rãi hơn, đáp ứng được hầu hết các yêu cầu đề ra. Nhưng không may là hệ
thống lý tưởng như vậy gặp một số vấn đề, nhất là độ chính xác của hệ thống.
Trong thực tế, mỗi người có một giọng nói khác nhau, thậm chí ngay cùng
một người cũng có giọng nói khác nhau ở những thời điểm khác nhau. Điều này
ảnh hưởng rất lớn đến việc nhận dạng, nó làm giảm độ chính xác của hệ thống nhận
dạng xuống nhiều lần. Do đó để khắc phục khuyết điểm này, hệ thống nhận dạng
độc lập người nói cần được thiết kế phức tạp hơn, đòi hỏi lượng dữ liệu huấn luyện
lớn hơn nhiều lần (dữ liệu được thu từ nhiều giọng khác nhau của nhiều người).
Nhưng điều này cũng không cải thiện được bao nhiêu chất lượng nhận dạng. Do đó,
trong thực tế có một cách giải quyết là bán độc lập người nói. Phương pháp
này thực hiện bằng cách thu mẫu một số lượng lớn các giọng nói khác biệt nhau.
Khi sử dụng, hệ thống sẽ được điều chỉnh cho phù hợp với giọng của người dùng,
bằng cách nó học thêm một vài câu có chứa các từ cần thiết (người dùng trước khi
sử dụng hệ thống cần qua một quá trình ngắn huấn luyện hệ thống).
Nhận dạng độc lập người nói khó hơn rất nhiều so với nhận dạng phụ thuộc
người nói. Cùng một từ, một người, dù có cố gắng phát âm cho thật giống đi nữa
thì cũng có sự khác biệt. Đối với bộ não con người, một hệ thống hoàn hảo, thì sự
khác biệt đó có thể được bỏ qua do ngữ cảnh, và do có phần xử lý làm mờ đi của
não. Nhưng đối với máy tính thì rất khó xây dựng được một mô hình giải quyết cho
tất cả các trường hợp khác biệt đó.
Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 
Last edited by a moderator:

Các chủ đề có liên quan khác

Top