daigai

Well-Known Member
Link tải luận văn miễn phí cho ae Kết Nối
Mục lục
I. Tổng quan 3
1. Đặt vấn đề 3
2. Tách từ tiếng Việt. 3
II. Các phương pháp tách từ hiện nay 4
1. Vấn đề tách từ tiếng Việt 4
a. So sánh giữa tiếng Anh và tiếng Việt. 4
b. Nhận xét 4
2. Các hướng tiếp cận của kĩ thuật tách từ tiếng Việt 4
c. Hướng tiếp cận dựa trên từ (Word-based approaches) 5
d. Hướng tiếp cận dựa trên kí tự 6
3. Một số phương pháp tách từ tiếng Việt hiện nay 6
a. So khớp từ dài nhất (Longest Matching) 6
b. Học dựa trên sự cải biến (Transformation-based Learning -TBL) 7
c. Chuyển đổi trạng thái trọng số hữu hạn (Weighted- Finite State Transducer- WFST) 8
d. Phương pháp tách từ dựa trên thống kê từ trên Internet và giải thuật di truyền (Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese - IGATEC) 10
4. Kết luận 11
III. Demo chương trình tách từ trong văn bản tiếng việt. 13
a. Chuyển đổi từ một file: 13
b. Chuyển đổi nhiều file trong cùng một thư mục: 15

I. Tổng quan
1. Đặt vấn đề
Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ-công cụ hoàn hảo nhất của tư duy và giao tiếp
Thực chất của xử lý ngôn ngữ tự nhiên là chuyển đổi âm thanh thành ngữ nghĩa. Với mục đích là hiểu được ngôn ngữ, ý nghĩa.
Các bước phân tích của xử lý ngôn ngữ tự nhiên:
• Phân tích hình thái học (Morphology): cách từ được xây dụng, các tiền tố hậu tố
• Phân tích cú pháp (Syntax): mối liên hệ về cấu trúc ngữ pháp giữa các từ và ngữ.
• Phân tích ngữ nghĩa (Semantics ): nghĩa của từ, cụm từ và cách diễn đạt
• Diễn ngôn (Discourse): quan hệ giữa các ý hay các câu.
• Thực chứng: mục đích phát ngôn, cách sử dụng ngôn ngữ trong giao tiếp.
• Tri thức thế giới: Các tri thức về thế giới vá các tri thức ngầm
Trong phân tích hình thái học từng từ sẽ được phân tích và các ký tự không phải chữ (như các dấu câu) sẽ được tách ra khỏi các từ. Trong tiếng Anh và nhiều ngôn ngữ khác, các từ được phân tách với nhau bằng dấu cách. Tuy nhiên trong tiếng Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không phải từ. Cùng với các ngôn ngữ như tiếng Trung, tiếng Hàn, tiếng Nhật, phân tách từ trong tiếng Việt là một công việc không hề đơn giản.
2. Tách từ tiếng Việt.
Đối với tiếng Anh hay các ngôn ngữ không đơn lập khác “từ là một nhóm các kí tự có nghĩa được tách biệt bằng khoảng trắng trong câu” do vậy việc tách từ trở nên rất đơn giản.
Còn đối với ngôn ngữ đơn lập như tiếng Việt, tiếng Hán, tiếng Thái … lại là một bài toán khó. Bởi những đặc tính chính của ngôn ngữ đơn lập như sau:
• Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp
• Từ được cấu trúc từ tiếng.
• Từ bao gồm từ đơn và từ phức (bao gồm từ láy và từ ghép).
Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet như một hướng tiếp cận mới trong tách từ với mục đích phân loại văn bản mà không cần dùng đến một từ điển hay tập ngữ liệu học nào.


II. Các phương pháp tách từ hiện nay
1. Vấn đề tách từ tiếng Việt
a. So sánh giữa tiếng Anh và tiếng Việt.
Những đặc điểm chính của tiếng anh và tiếng Việt:

Tiếng Việt Tiếng Anh
 - Là ngôn ngữ đơn lập (isolate) hay còn gọi là loại hình phi hình thái, không biến hình, đơn âm tiết.
 - Từ không biến đổi hình thái, ý nghĩa ngữ pháp nằm ngoài từ.
 - cách ngữ pháp chủ yếu : trật tự từ và hư từ.
 - Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng.
- Tồn tại loại từ đặc biệt “từ chỉ loại” hay còn gọi là phó danh từ chỉ loại kèm theo với danh từ.
 - Có hiện tượng láy và nói lái trong tiếng việt  - Là ngôn ngữ không đơn lập- loại hình biến cách hay còn gọi là loại hình chiết khuất.
 - Từ có biến đổi hình thái, ý nghĩa ngữ pháp nằm ở trong từ.
 - cách ngữ pháp chủ yếu là phụ tố.
 - Kết hợp giữa các hình vị là chặt chẽ, khó xác định, được nhận diện bằng khoảng trắng hay dấu câu.
 - Hiện tượng cấu tạo bằng từ ghép thêm phụ tố (affix) vào từ gốc là rất phổ biến.
 

b. Nhận xét
• Tiếng Việt là loại hình phi hình thái nên việc phân loại từ (danh từ, động từ, tính từ…. ) và ý nghĩa từ là rất khó khăn, cho dù có sử dụng từ điển.
• Việc tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) sẽ thêm phức tạp với phần xử lý các hư từ, phụ từ, từ láy…
• cách ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác xuất xuất hiện của từ có thể không chính xác như mong đợi.
• Ranh giới từ không được xác định mặc định bằng khoảng trắng. Điều này khiến cho việc phân tích hình thái (tách từ) tiếng Việt trỏe nên khó khăn. Việc nhận diện ranh giới từ là quan trọng và làm tiền đề cho các xử lý tiếp theo sau đó. như: kiểm tra lỗi chính tả, gán nhãn từ loại, thống kê tần suất từ..
• Vì tiếng Anh và tiếng Việt có những điểm khác biệt nên chúng ta không thể áp dụng y nguyên các thuật toán tiếng Anh cho tiếng Việt.
2. Các hướng tiếp cận của kĩ thuật tách từ tiếng Việt
Dựa vào các kĩ thuật tách từ của tiếng Hán, và những điểm tương đồng giữa tiếng Việt và tiếng Hán. Chúng ta có thể xây dựng sơ đồ các hướng tiếp cận của kĩ thuật tách từ tiếng Việt:























c. Hướng tiếp cận dựa trên từ (Word-based approaches)
Hướng tiếp cận dựa trên từ với mục tiêu tách được các từ hoàn chỉnh trong câu. Hướng tiếp cận này có thể chia ra theo 3 hướng : dựa trên thống kê (statistics - based), dựa trên từ điển ( dictionary – based) và hydrid ( kết hợp nhiều phương pháp).
• Hướng tiếp cận dựa trên thống kê (statistic-based): dựa trên các thông tin như tần số xuất hiện của từ trong tập huấn luyện ban đầu.
• Hướng tiếp cận dựa trên từ điển (dictionary- based): ý tưởng của hướng tiếp cận này là những cụm từ được tách ra từ văn bản phải được so khớp với các từ trong từ điển.
• Tùy thuộc vào loại từ điển sử dụng để so khớp lại có 2 hướng tiếp cận: full word/ pharse và component. Trong đó full word/ pharse cần sử dụng một từ điển hoàn chỉnh. Còn component thì sử dụng từ điển thành phần.
• Tùy theo cách chọn so khớp từ (match) hướng tiếp cận ‘full word/ pharse’ có thể chia ra làm 3 loại: so khớp dài nhất (longest match), so khớp ngắn nhất (shortest match) và so khớp kết hợp (overlap). Trong so khớp kết hợp mỗi chuỗi được phát sinh từ văn bản có thể chồng lấp lên chuỗi khác nếu chuỗi đó có trong từ điển.
• Hiện nay thì hướng tiếp cận so khớp dài nhất được xem là phương pháp quan trọng và có hiệu quả nhất trong hướng tiếp cận dựa trên từ điển.
• Hướng tiếp cận hybrid:Với mục đích kết hợp các hướng tiếp cận khác nhau để thừa hưởng được các ưu điểm của nhiều kỹ thuật và các hướng tiếp cận khác nhau nhằm nâng cao kết qủa. Hướng tiếp cận này thường kết hợp giữa hướng dựa trên thống kê và dựa trên từ điển nhằm tận dụng các mặt mạnh của các phương pháp này. Tuy nhiên hướng tiếp cận Hybrid lại mất nhiều thời gian xử lý, không gian đĩa và đòi hỏi nhiều chi phí.
d. Hướng tiếp cận dựa trên kí tự
Trong tiếng việt, hình vị nhỏ nhất là “tiếng” được hình thành bởi nhiều ký tự trong bảng chữ cái. Hướng tiếp cận này đơn thuần rút trích ra một số lượng nhất định các tiếng trong văn bản như rút trích từ 1 ký tự (unigram) hay nhiều ký tự (n-gram) và cũng mang lại một số kết qủa nhất định được minh chứng thông qua một số công trình nghiên cứu đã được công bố, như của tác giả Lê An Hà [2003] xây dựng tập ngữ liệu thô 10MB bằng cách sử dụng phương pháp qui hoạch động để cực đại hóa xác suất xuất hiện của các ngữ. Rồi công trình nghiên cứu của H. Nguyễn[2005] làm theo hướng tiếp cận là thay vì sử dụng ngữ liệu thô, công trình tiếp cận theo hướng xem Internet như một kho ngữ liệu khổng lồ, sau đó tiến hành thống kê và sử dụng thuật giải di truyền để tìm cách tách từ tối ưu nhất, và một số công trình của một số tác giả khác. Khi so sánh kết qủa của tác giả Lê An Hà và H. Nguyễn thì thấy công trình của H. Nguyễn cho được kết quả tốt hơn khi tiến hành tách từ, tuy nhiên thời gian xử lý lâu hơn. Ưu điểm nổi bật của hướng tiếp cận dựa trên nhiều ký tự là tính đơn giản, dễ ứng dụng, ngoài ra còn có thuận lợi là ít tốn chi phí cho thao tác tạo chỉ mục và xử lý nhiều câu truy vấn. Qua nhiều công trình nghiên cứu của các tác giả đã được công bố, hướng tiếp cận tách từ dựa trên nhiều ký tự, cụ thể là cách tách từ hai ký tự được đánh giá là sự lựa chọn thích hợp.
3. Một số phương pháp tách từ tiếng Việt hiện nay
a. So khớp từ dài nhất (Longest Matching)
Longest Matching là thuật toán dựa trên tử tưởng tham lam. Nó xét các tiếng từ trái qua phải, các tiếng đầu tiên dài nhất có thể mà xuất hiện trong từ điển sẽ được tách ra làm một từ. Thuật toán sẽ dừng khi xét hết các tiếng. Thuật toán chỉ đúng khi
Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 

Các chủ đề có liên quan khác

Top