Andrew

New Member

Download miễn phí Khóa luận So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng Vệt





Mục lục
MỞ ĐẦU.1
Chương 1. KHÁI QUÁT VỀBÀI TOÁN GÁN NHÃN TỪLOẠI.3
1.1. Khái niệm và vịtrí của bài toán gán nhãn từloại trong NLP .3
1.1.1. Khái niệm vềbài toán gán nhãn từloại .3
1.1.2. Vịtrí và ứng dụng của bài toán gán nhãn từloại trong NLP.4
1.2. Các khó khăn của bài toán gán nhãn từloại.6
1.3. Tập nhãn từloại.7
1.3.1. Nguyên tắc xây dựng tập nhãn từloại và một sốtập nhãn từloại của các
ngôn ngữtrên thếgiới .7
1.3.2. Một sốtập nhãn từloại hiện được đềxuất ởViệt Nam.10
Chương 2. CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪLOẠI.13
2.1. Gán nhãn bằng phương pháp dựa trên hệluật .13
2.2. Các phương pháp dựa vào học máy .15
2.3. Phương pháp lai.19
2.4. Các nghiên cứu liên quan tại Việt Nam .21
2.4.1. Các nghiên cứu dựa trên phương pháp hệluật .21
2.4.2. Các nghiên cứu dựa trên phương pháp học máy .22
2.4.3. Các nghiên cứu dựa trên phương pháp lai .22
Chương 3. BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN
TỪLOẠI TIẾNG VIỆT.25
3.1. Mô hình cực đại hóa Entropy.25
3.1.1. Khái niệm MEM .25
3.1.2. Nguyên lý cực đại hóa Entropy .26
3.1.3. Mô hình xác suất.26
3.1.4. Hạn chếcủa mô hình MEM .27
3.2. Mô hình trường ngẫu nhiên điều kiện .28
3.2.1. Khái niệm CRF .28
3.2.2. Hàm tiềm năng của các mô hình CRF .30
3.2.3. Thuật toán gán nhãn cho dữliệu dạng chuỗi. .31
3.2.4. Ước lượng tham sốcho các mô hình CRF.33
3.3. Mô hình máy véc tơhỗtrợ.33
3.3.1. Khái niệm và cơsởcủa phương pháp SVM .33
3.3.2. Áp dụng phương pháp SVM cho bài toán gán nhãn từloại .36
3.3.3. Huấn luyện SVM .37
Chương 4. THỰC NGHIỆM ÁP DỤNG BA MÔ HÌNH HỌC MÁY CHO BÀI
TOÁN GÁN NHÃN TỪLOẠI TIẾNG VIỆT VÀ ĐÁNH GIÁ KẾT QUẢ.39
4.1. Mô tảthực nghiệm .39
4.1.1. Phần cứng.39
4.1.2. Phần mềm.39
4.1.3. Dữliệu thực nghiệm và tập nhãn từloại.40
4.2. Mô tảtập đặc trưng dựa trên mức từvà mức hình vị.43
4.2.1. Các đặc trưng dựa vào thông tin từvựng và thông tin từloại .43
4.2.2. Mẫu ngữcảnh dạng biểu thức chính quy.45
4.3. Hệthống gán nhãn từloại cho tiếng Việt .45
4.3.1. Gán nhãn từloại dựa vào thông tin vềtừ.47
4.3.2. Gán nhãn từloại dựa vào thông tin hình vị.47
4.4. Phương pháp thực nghiệm và các tham số đánh giá thực nghiệm .48
4.4.1. Phương pháp thực nghiệm .48
4.4.2. Các tham số đánh giá thực nghiệm .48
4.5. Kết quảthực nghiệm .48
4.5.1. Kết quảcủa năm lần thực nghiệm .48
4.5.2. Tổng hợp kết quả.51
4.5.3. Đánh giá và thảo luận .53
KẾT LUẬN.55



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

x[ (t )× P(w | t )× P(t | t )]
 
 
 
 
(2.9)
Một trong những bộ gán nhãn tiêu biểu sử dụng phương pháp này là bộ gán nhãn
TnT của tác giả Thorsten Brants sử dụng phương pháp tri-gram, cho kết quả 96.7% với
tập nhãn Penn TreeBank và bộ dữ liệu WallStreet trong tiếng Anh [16]. QTAG là một
bộ gán nhãn dựa trên mô hình HMM do nhóm nghiên cứu Corpus Research thuộc
trường đại học tổng hợp Birmingham phát triển, cung cấp miễn phí cho mục đích
T1 T2 T3 Tn-1 Tn
W1 W 2 W 3 W n-1 W n
( | ... ) ( | )i 1 1 i 1 i 1 i i iP w w t w t t P w t  
( | ... ) ( | )i 1 1 i 1 i 1 i i-2 i-1P t w t w t P t t t  
( ) ( | ) ( | )[ ( | )]
n n
1 2 1 i i-2 i-1 i i
i 3 i 1
P t P t t P t t t P w t
 
 
18
nghiên cứu. Một điểm nổi trội của QTAG là dù được xây dựng cho tiếng Anh nhưng
nó có thể được huấn luyện để sử dụng cho các ngôn ngữ khác [3]. Phương pháp xác
suất còn được sử dụng để gán nhãn từ loại trong rất nhiều ngôn ngữ khác nhau, ví dụ
việc áp dụng mô hình HMM cho bài toán gán nhãn từ loại tiếng Trung Quốc đạt đến
93.5 % trong nghiên cứu của các tác giả GouDong Zhou và Jian Su [20]; Hai tác giả
Fábio N.Kepler và Marcelo Finger cũng công bố kết quả sử dụng mô hình HMM để
gán nhãn từ loại cho tiếng Bồ Đào Nha với kết quả 93.48 % [18].
Tuy nhiên, mặc dù tính đến thời điểm hiện tại, đây là một trong những phương
pháp gán nhãn theo phương pháp xác suất thông dụng nhất được biết đến nhưng nó
vẫn còn tiềm tàng những giới hạn khó giải quyết. Adrew McCallum trong các nghiên
cứu của mình [10] đã đưa ra hai vấn đề mà các mô hình HMM truyền thống nói riêng
và các mô hình sinh (generative models) nói chung gặp phải khi gán nhãn cho dữ liệu
dạng chuỗi.
 Thứ nhất, để có thể tính được xác suất P(T, W) (2.1), thông thường ta phải liệt
kê hết các trường hợp có thể của chuỗi T và chuỗi W. Nếu như các chuỗi T có
thể liệt kê được vì số lượng các trạng thái là có hạn thì trong nhiều ứng dụng ta
không thể nào liệt kê hết được các chuỗi W vì dữ liệu quan sát là hết sức phong
phú và đa dạng. Để giải quyết vấn đề này, HMM phải đưa ra giả thiết về sự độc
lập giữa các dữ liệu quan sát, đó là dữ liệu quan sát được tại thời điểm i chỉ phụ
thuộc trạng thái tại thời điểm đó. Tuy nhiên giả thiết này không có trong thế
giới thực vì vậy khi áp dụng nó trong các hệ thống thực tế sẽ khó tránh khỏi
một yếu tố bất lợi như thiếu tính mềm dẻo, bỏ sót thuộc tính ...
 Vấn đề thứ hai mà các mô hình sinh gặp phải khi áp dụng vào các bài toán phân
lớp dữ liệu dạng chuỗi đó là chúng sử dụng xác suất đồng thời để mô hình hóa
các bài toán có tính điều kiện.Với các bài toán này sẽ thích hợp hơn nếu ta dùng
một mô hình điều kiện có thể tính toán P(T|W) trực tiếp thay vì P (T,W) như
trong công thức (2.1).
Ngoài HMM, còn rất nhiều phương pháp xác suất khác có thể sử dụng để giải
quyết bài toán gán nhãn từ loại nói chung và bài toán gán nhãn từ loại tiếng Việt nói
riêng, nhiều trong số chúng có những ưu điểm giải quyết được các hạn chế của mô
hình HMM mà ta đã nói ở trên. Cùng với đó, bên cạnh các phương pháp học máy xác
suất, còn có các phương pháp học máy khác, ví dụ phương pháp học máy dựa trên độ
đo, phương pháp sử dụng mạng nơ ron nhân tạo, …. Các chương sau sẽ trình bày rõ
hơn về ba phương pháp học máy tiêu biểu đã đạt được kết quả khả quan khi áp dụng
19
cho bài toán gán nhãn từ loại trong các ngôn ngữ khác, đó là mô hình cực đại hóa
Entropy MEM, mô hình miền ngẫu nhiên điều kiện CRF và mô hình máy véc tơ hỗ trợ
SVM.
2.3. Phương pháp lai
Đại diện tiêu biểu của phương pháp lai là phương pháp dựa trên học chuyển đổi
(Transformation-Based learning TBL) [6], đây là một phương pháp học có giám sát,
đòi hỏi một tập ngữ liệu đã được gán nhãn. Phương pháp này sử dụng đặc tính của cả
hai kiến trúc gán nhãn nói trên. Giống như bộ gán nhãn dựa trên luật, nó dựa vào luật
để xác định khi một từ nhập nhằng thì nó có khả năng là một nhãn nào nhất. Giống
như bộ gán nhãn xác suất, nó có một thành phần học máy để tạo ra các luật một cách
tự động từ một bộ dữ liệu huấn luyện đã được gán nhãn trước.
Ý tưởng chính của thuật toán này là bắt đầu với một vài giải pháp đơn giản (hay
tinh vi) cho vấn đề (gọi là “baseline tagging”) và từng bước áp dụng những luật biến
đổi (luật chuyển) tối ưu (tìm ra từ tập ngữ liệu huấn luyện đã được đánh dấu chính
xác) để dần dần giải quyết vấn đề (tức là chuyển từ nhãn không chính xác sang nhãn
chính xác). Quá trình này sẽ dừng lại khi không còn luật chuyển tối ưu nào được lựa
chọn hay đã hết dữ liệu. Hình 5 cho ta mô hình tổng quát của phương pháp lai.
Hình 5. Mô hình tổng quát của phương pháp lai
Dữ liệu chưa gán
nhãn
Trạng thái bắt
đầu
Dữ liệu đã gán
nhãn
“Sự thật”
Các luật
Bộ học
20
Thuật toán bao gồm 5 bước [6]
 Bước 1: Gán nhãn cho từng từ bằng nhãn thông dụng nhất.
 Bước 2: Chọn một phép chuyển có tính quyết định thay thế nhãn đã gán bằng
nhãn mới mà kết quả đem lại có hệ số đánh giá lỗi thấp hơn (Đánh giá một phép
chuyển bằng hệ số đánh giá lỗi thực chất là so sánh nó với “sự thật”).
 Bước 3: Áp dụng phép chuyển này cho cả tập huấn luyện.
 Bước 4: Thực hiện lại các bước trên
 Bước 5: Đưa ra kết quả là một bộ gán nhãn mà nhãn đầu tiên sử dụng unigrams,
sau đó áp dụng phép chuyển đã được “học” ở trên theo thứ tự.
Ví dụ về một số luật chuyển thường được áp dụng cho phương pháp lai được cho
bởi bảng 4 [6].
Bảng 4. Ví dụ về một số luật chuyển của TBL cho tiếng Anh
Chuyển nhãnS
TT Cũ Mới
Điều kiện Ví dụ
1
2
3
4
5
NN
VBP
NN
VB
VBD
VB
VB
VB
NN
VBN
Nhãn trước đó là TO
1 trong 3 nhãn trước đó là MD
1 trong 2 nhãn trước đó là DT
1 trong 3 nhãn trước đó là VBZ
To/TO race/NNVB
Might/MD vanish/VBPVB
Might/MD not reply/NNVB
Ví dụ: Xét từ “race” trong hai câu dưới đây
- It is expected to race tomorrow.
- The race for outer space.
Thuật toán sẽ thực hiện như sau:
 Đầu tiên, gán nhãn tất cả các từ “race” là NN (nhãn thường gặp nhất trong tập
ngữ liệu Brown corpus). Tức là:
“It is expected to race/NN tomorrow”
“The race/NN for outer space”
21
 Sau đó, sử dụng luật biến đổi để thay thế các nhãn NN bằng VB cho tất cả các
từ “race” mà đứng trước nó là từ được gán nhãn TO. Tức là:
“It is expected to race/VB tomorrow”
Và “The race/NN for outer space”
Đại diện tiêu biểu cho phương pháp này là bộ gán nhãn từ loại Brill’s (được xây
dựng bởi Eric Brill) sử dụng cho tiếng Anh, đây là một bộ gán nhãn rất thông dụng vì
các ưu điểm của nó như miễn phí, đem lại kết quả khá khả quan (Độ chính xác là
96.6% cho tập ngữ liệu Wall Street Journal).
2.4. Các nghiên cứu liên quan tại Việt Nam
Bài toán gán nhãn từ loại cho tiếng Việt bắt đầu được quan tâm khá muộn so với
tiếng Anh, tuy gặp phải không ít khó khăn vì những đặc trưng phức tạp riêng của tiếng
Việt, nhưng...
 
Các chủ đề có liên quan khác

Các chủ đề có liên quan khác

Top