Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp

i_love_you_foreve_215 · 19/4/14

Download miễn phí Luận văn Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp

MỤC LỤC
MỤC LỤC 1
BẢNG DANH MỤC HÌNH HOẠ 3
LỜI GIỚI THIỆU 4
I. Đặt vấn đề 6
II. Cơ sở lý thuyết 7
1. Khái niệm Text Mining 7
a. Khai phá dữ liệu (Data Mining) 7
b. Khai phá dữ liệu văn bản (Text Mining) 8
2. Bài toán phân loại văn bản (Text categorization) 10
a. Khái niệm phân loại văn bản 10
b. Các phương pháp phân loại văn bản 11
b.1. Sử dụng từ điển phân cấp chủ đề 11
b.1.1. Giải thuật phân lớp và phân cấp chủ đề 11
b.1.2. Sự phù hợp và sự phân biệt của các trọng số 12
b.2. Phương pháp cây quyết định (Decision tree) 13
3. Bài toán thu thập thông tin (Information retrieval - IR) 14
a. Khái niệm thu thập thông tin 14
b. Các phương pháp thu thập thông tin 16
b.1. Các phương pháp chuẩn 16
b.1.1. Mô hình Boolean 16
b.1.2. Mô hình không gian vec-tơ (Vector space model - VSM) 18
b.2. Các phương pháp dựa trí tuệ nhân tạo (AI-based method) 21
b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) 22
4. Một số công cụ phân tích văn bản tiếng Anh 26
III. Các giải pháp áp dụng cho Vietnamese Text Mining 29
1. Đặc trưng của văn bản tiếng Việt 29
a. Các đơn vị của tiếng Việt 29
a.1. Tiếng và đặc điểm của tiếng 29
a.1.1. Tiếng và giá trị ngữ âm 29
a.1.2. Tiếng và giá trị ngữ nghĩa 29
a.1.3. Tiếng và giá trị ngữ pháp 29
a.2. Từ và các đặc điểm của từ 30
a.2.1. Từ là đơn vị nhỏ nhất để đặt câu 30
a.2.2. Từ có nghĩa hoàn chỉnh và cấu tạo ổn định 30
a.3. Câu và các đặc điểm của câu 30
a.3.1. Câu có ý nghĩa hoàn chỉnh 30
a.3.2. Câu có cấu tạo đa dạng. 30
b. Các phương tiện ngữ pháp của tiếng việt. 31
b.1. Trong phạm vi cấu tạo từ. 31
b.2. Trong phạm vi cấu tạo câu. 31
c. Từ tiếng việt 32
c.1. Từ đơn - từ ghép 32
c.2. Từ loại 32
c.3. Dùng từ cấu tạo ngữ 33
d. Câu tiếng việt 34
d.1. Câu đơn 34
d.2. Câu ghép 35
d.2.1. Câu ghép song song 35
d.2.2. Câu ghép qua lại 35
d.2.3. Các thành phần câu. 35
e. Các đặc điểm chính tả và văn bản tiếng Việt 36
2. Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt 36
a. Bài toán phân loại văn bản tiếng Việt 36
b. Bài toán thu thập thông tin từ văn bản tiếng Việt 37
IV. Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển 38
1. Chương trình và bài toán được giải quyết 38
2. Kết quả chạy chương trình 38
TÀI LIỆU THAM KHẢO 39
PHỤ LỤC 40
Các thông tin về báo cáo 40
Cách chạy chương trình demo 40
TỪ ĐIỂN THUẬT NGỮ 41

Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

ại
giạ
giạ
thương nghiệp
thương nghiệp
xuất khẩu
xuất khẩu
nông nghiệp
tấn
tấn
nông nghiệp
lúa mì
lúa mì
lúa mì
lúa mì
lúa mì
lúa mì
lúa mì
lúa mì
Hình 1: Một ví dụ về cây quyết định
Phương pháp phân lớp văn bản Cây quyết định (decision tree - DT) được Mitchell đưa ra vào năm 1996 [2]. Trên cây gồm các nút trong được gán nhãn bởi các thuật ngữ, các nhánh cây chứa nút được gán nhãn bằng các trọng số của thuật ngữ tương ứng đối với tài liệu mẫu, và các lá cây được gắn nhãn bởi các phân lớp. Một hệ thống phân lớp như vậy sẽ phân loại một tài liệu dj bởi phép thử đệ quy các trọng số mà các thuật ngữ được gán nhãn cho các nút trong với vec-tơ cho đến khi với tới một nút lá. Khi đó, nhãn của nút này được gán cho dj. Đa số các phướng pháp phân loại như vậy sử dụng biểu diễn văn bản ở dạng nhị phân, và như vậy các cây cũng được biểu diễn dưới dạng nhị phân. Một ví dụ về cây quyết định được minh hoạ trong Hình 1.
Một phương pháp khả thi dùng để huấn luyện một cây quyết định phân loại ci nằm ở chiến lược “chia và trị” [2]. Chiến lược này sẽ kiểm tra xem liệu tất cả các khái niệm huấn luyện có cùng nhãn với nó (hoặc hoặc ); nếu không, lựa chọn một khái niệm tk, phân chia cây thành các lớp tài liệu có cùng giá trị tk và chèn vào mỗi lớp như vậy một cây con riêng biệt. Quá trình đệ quy lặp lại trên các cây con cho đến khi mỗi lá của cây phát sinh chứa các khái niệm huấn luyên gán cho cùng phạm trù ci, khi đó nó được chọn như là nhãn của lá đó. Bước quyết định là việc chọn thuật ngữ tk ở đó sẽ xảy ra thao tác chia, một phương pháp lựa chọn là chọn theo lợi ích thông tin hay entropi. Tuy nhiên, một cây "quá lớn lên" có thể bị sập, nếu như các nhánh cây quá đặc biệt với dữ liệu huấn luyện.
Đa số các phướng pháp dạy cây quyết định như vậy bao gồm một phương pháp thêm cây và một phương pháp xén bớt cây để loại bỏ những nhánh quá đặc biệt [2].
3. Bài toán thu thập thông tin (Information retrieval - IR)
a. Khái niệm thu thập thông tin
Thu thập thông tin (Information Retrieval) là một trong những bài toán khai phá dữ liệu văn bản. Bài toán này chủ yếu tập trung vào việc tìm ra các tài liệu trong một tập hợp các tài liệu có sẵn theo một điều kiện nào đó. Các điều kiện này có thể là một truy vấn hay một văn bản.
Khi điều kiện đưa vào là một truy vấn, bài toán sẽ đưa ra các suy luận để tìm ra đặc trưng của câu truy vấn đó, sau đó so sánh với các đặc trưng của các tài liệu có sẵn để tìm ra các tài liệu phù hợp nhất với câu truy vấn đó. Trong bài toán này, mô hình của bài toán gần với bài toán Search Engine. Tuy nhiên, bài toán thu thập thông tin là bài toán được phát triển ở mức độ cao hơn. Đối với bài toán Search Engine, câu truy vấn đưa vào là tập hợp các niệm. Nhưng với bài toán thu thập thông tin, câu truy vấn đưa vào có thể là một câu văn có ngữ nghĩa. Hệ thống sẽ tìm cách phân tích ngữ nghĩa của câu truy vấn để tìm ra đặc trưng của nó.
Thông tin cần thiết
Truy vấn
Gửi cho Hệ thống
Nhận kết quả
Đánh giá kết quả
Tốt ?
Dừng lại
Đúng
Công thức hoá lại
Sai
Hình 2. Mô hình thu thập thông tin chuẩn
Khi thu thập dữ liệu, chúng ta thường cố gắng tìm kiếm các dữ liệu chính xác. Trong các trường hợp khác, chúng ta kiểm tra để xem một thông tin có trong một tệp tin hay không. Khi thu thập thông tin, kết quả chính xác thường được quan tâm, nhưng thông thường chúng ta muốn tìm kiếm một cách tương đối chính xác với một thông tin đặc biệt được đưa vào. Sau đó chúng ta sẽ tự chọn thông tin phù hợp nhất từ các kết quả của phép xử lý trước đó. Nếu chúng ta so sánh nó với các kiểu hệ thống khác nhau, chúng ta sẽ thấy rằng trong nội dung các truy vấn cơ sở dữ liệu, một phép tìm kiếm thực chất là để làm thoả mãn một truy vấn, là câu hỏi để tìm ra câu trả lời (được biết đến với khái niệm trích xuất thông tin) đặc biệt là với một câu hỏi đặc biệt. Trong thu thập thông tin, một phép tìm kiếm nhằm tìm ra một tài liệu mà người dùng đang cần. Các hệ thống thu thập thông tin (IR systems) được sử dụng để thu thập các tài liệu liên quan đến các yêu cầu rõ ràng. Vấn đề với thu thập thông tin là việc xử lý các văn bản có nội dung liên quan nội tại đến các văn bản được sử dụng trước đó. Hình 2 đưa ra một mô hình tương tác thu thập thông tin chuẩn. Hiển nhiên, việc thu thập thông tin là quá trình xử lý lặp lại, với xử lý đầu vào và đầu ra bao gồm vòng lặp tính toán lại yêu cầu.
Thao tác này chuyển đổi truy vấn theo một chiến lược có sẵn nhằm tăng tính phù hợp của tài liệu đã nhận được.
Việc thu thập thông tin có thể được định nghĩa cho bất cứ một loại thông tin nào ví dụ như kiểu văn bản, hình ảnh, âm thanh... Tuy nhiên, ở đây chúng ta chỉ đề cập đến việc thu thập văn bản bởi văn bản là một loại thông tin mà cách thực hiện và kỹ thuật xử lý đơn giản hơn. Có thể nhấn mạnh rằng các kỹ thuật này cũng có thể được áp dụng cho thu thập thông tin đa phương tiện.
Các kỹ thuật thu thập thông tin có thể được chia ra thành hai loại:
Các kỹ thuật chuẩn
Các kỹ thuật có áp dụng trí tuệ nhân tạo.
Nhóm đầu tiên bao gồm các kỹ thuật dựa trên các cách thuật toán và toán học truyền thống. Nhóm thứ hai cố gắng thu thập tri thức bằng các kỹ thuật áp dụng trí tuệ nhân tạo để giành được các kết quả tốt hơn.
b. Các phương pháp thu thập thông tin
Ngày nay, các thông tin đang được phát triển mạnh mẽ về số lượng và chủ yếu là từ Internet. Internet đã trở thành nơi lưu trữ, quản lý và đặc biệt là nơi thu nhận thông tin nhanh chóng và tiện lợi. Lợi ích trung tâm là các thông tin thu nhận được phù hợp với nhu cầu người dùng. Đó là lý do của các nghiên cứu chuyên sâu trong các lĩnh vực như khai phá dữ liệu (DataMining), trích xuất thông tin (Information Extraction), thu thập thông tin (Information Retrieval).
Rất nhiều các phương pháp thu thập thông tin được phát triển và kết quả mà chúng đem lại khá tốt. Trong đó có rất nhiều phương pháp tồn tại ở dạng chuẩn. Các phương pháp này thường dựa theo các phương pháp toán học cổ điển. Một số phương pháp khác được phát triển theo hướng dựa trí tuệ nhân tạo. Sau đây, chúng ta sẽ tìm hiểu sâu hơn về các phương pháp thu thập thông tin.
b.1. Các phương pháp chuẩn
Phần lớn các kỹ thuật chuẩn được phát triển từ những năm 1960 đến những năm 1970, và phần lớn trong số chúng dựa trên các thuật toán và công thức toán học truyền thống. Trong bài nghiên cứu này chỉ đề cập đến các mô hình mô hình Boolean (Boolean model), mô hình không gian vec-tơ (vector space model).
b.1.1. Mô hình Boolean
Boolean là mô hình nghiên cứu chiến lượng, đơn giản nhất, và được thể hiện để đưa ra ý tưởng cơ bản cho các chiến lượng xa hơn [4]. Hầu hết đồng ý rằng tất cả các chiến lược nghiên cứu dựa trên việc so sánh giữa câu truy vấn và các tài liệu đ...

thienthan_dangyeu4125 · 19/4/14

Download miễn phí Luận văn Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp

MỤC LỤC
MỤC LỤC 1
BẢNG DANH MỤC HÌNH HOẠ 3
LỜI GIỚI THIỆU 4
I. Đặt vấn đề 6
II. Cơ sở lý thuyết 7
1. Khái niệm Text Mining 7
a. Khai phá dữ liệu (Data Mining) 7
b. Khai phá dữ liệu văn bản (Text Mining) 8
2. Bài toán phân loại văn bản (Text categorization) 10
a. Khái niệm phân loại văn bản 10
b. Các phương pháp phân loại văn bản 11
b.1. Sử dụng từ điển phân cấp chủ đề 11
b.1.1. Giải thuật phân lớp và phân cấp chủ đề 11
b.1.2. Sự phù hợp và sự phân biệt của các trọng số 12
b.2. Phương pháp cây quyết định (Decision tree) 13
3. Bài toán thu thập thông tin (Information retrieval - IR) 14
a. Khái niệm thu thập thông tin 14
b. Các phương pháp thu thập thông tin 16
b.1. Các phương pháp chuẩn 16
b.1.1. Mô hình Boolean 16
b.1.2. Mô hình không gian vec-tơ (Vector space model - VSM) 18
b.2. Các phương pháp dựa trí tuệ nhân tạo (AI-based method) 21
b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) 22
4. Một số công cụ phân tích văn bản tiếng Anh 26
III. Các giải pháp áp dụng cho Vietnamese Text Mining 29
1. Đặc trưng của văn bản tiếng Việt 29
a. Các đơn vị của tiếng Việt 29
a.1. Tiếng và đặc điểm của tiếng 29
a.1.1. Tiếng và giá trị ngữ âm 29
a.1.2. Tiếng và giá trị ngữ nghĩa 29
a.1.3. Tiếng và giá trị ngữ pháp 29
a.2. Từ và các đặc điểm của từ 30
a.2.1. Từ là đơn vị nhỏ nhất để đặt câu 30
a.2.2. Từ có nghĩa hoàn chỉnh và cấu tạo ổn định 30
a.3. Câu và các đặc điểm của câu 30
a.3.1. Câu có ý nghĩa hoàn chỉnh 30
a.3.2. Câu có cấu tạo đa dạng. 30
b. Các phương tiện ngữ pháp của tiếng việt. 31
b.1. Trong phạm vi cấu tạo từ. 31
b.2. Trong phạm vi cấu tạo câu. 31
c. Từ tiếng việt 32
c.1. Từ đơn - từ ghép 32
c.2. Từ loại 32
c.3. Dùng từ cấu tạo ngữ 33
d. Câu tiếng việt 34
d.1. Câu đơn 34
d.2. Câu ghép 35
d.2.1. Câu ghép song song 35
d.2.2. Câu ghép qua lại 35
d.2.3. Các thành phần câu. 35
e. Các đặc điểm chính tả và văn bản tiếng Việt 36
2. Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt 36
a. Bài toán phân loại văn bản tiếng Việt 36
b. Bài toán thu thập thông tin từ văn bản tiếng Việt 37
IV. Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển 38
1. Chương trình và bài toán được giải quyết 38
2. Kết quả chạy chương trình 38
TÀI LIỆU THAM KHẢO 39
PHỤ LỤC 40
Các thông tin về báo cáo 40
Cách chạy chương trình demo 40
TỪ ĐIỂN THUẬT NGỮ 41

http://cloud.liketly.com/flash/edoc/jh2i1fkjb33wa7b577g9lou48iyvfkz6-swf-2014-01-29-luan_van_phan_loai_van_ban_tieng_viet_bang_phuong.ElypKzrsiR.swf /tai-lieu/de-tai-ung-dung-tren-liketly-57700/
Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

ại
giạ
giạ
thương nghiệp
thương nghiệp
xuất khẩu
xuất khẩu
nông nghiệp
tấn
tấn
nông nghiệp
lúa mì
lúa mì
lúa mì
lúa mì
lúa mì
lúa mì
lúa mì
lúa mì
Hình 1: Một ví dụ về cây quyết định
Phương pháp phân lớp văn bản Cây quyết định (decision tree - DT) được Mitchell đưa ra vào năm 1996 [2]. Trên cây gồm các nút trong được gán nhãn bởi các thuật ngữ, các nhánh cây chứa nút được gán nhãn bằng các trọng số của thuật ngữ tương ứng đối với tài liệu mẫu, và các lá cây được gắn nhãn bởi các phân lớp. Một hệ thống phân lớp như vậy sẽ phân loại một tài liệu dj bởi phép thử đệ quy các trọng số mà các thuật ngữ được gán nhãn cho các nút trong với vec-tơ cho đến khi với tới một nút lá. Khi đó, nhãn của nút này được gán cho dj. Đa số các phướng pháp phân loại như vậy sử dụng biểu diễn văn bản ở dạng nhị phân, và như vậy các cây cũng được biểu diễn dưới dạng nhị phân. Một ví dụ về cây quyết định được minh hoạ trong Hình 1.
Một phương pháp khả thi dùng để huấn luyện một cây quyết định phân loại ci nằm ở chiến lược “chia và trị” [2]. Chiến lược này sẽ kiểm tra xem liệu tất cả các khái niệm huấn luyện có cùng nhãn với nó (hoặc hoặc ); nếu không, lựa chọn một khái niệm tk, phân chia cây thành các lớp tài liệu có cùng giá trị tk và chèn vào mỗi lớp như vậy một cây con riêng biệt. Quá trình đệ quy lặp lại trên các cây con cho đến khi mỗi lá của cây phát sinh chứa các khái niệm huấn luyên gán cho cùng phạm trù ci, khi đó nó được chọn như là nhãn của lá đó. Bước quyết định là việc chọn thuật ngữ tk ở đó sẽ xảy ra thao tác chia, một phương pháp lựa chọn là chọn theo lợi ích thông tin hay entropi. Tuy nhiên, một cây "quá lớn lên" có thể bị sập, nếu như các nhánh cây quá đặc biệt với dữ liệu huấn luyện.
Đa số các phướng pháp dạy cây quyết định như vậy bao gồm một phương pháp thêm cây và một phương pháp xén bớt cây để loại bỏ những nhánh quá đặc biệt [2].
3. Bài toán thu thập thông tin (Information retrieval - IR)
a. Khái niệm thu thập thông tin
Thu thập thông tin (Information Retrieval) là một trong những bài toán khai phá dữ liệu văn bản. Bài toán này chủ yếu tập trung vào việc tìm ra các tài liệu trong một tập hợp các tài liệu có sẵn theo một điều kiện nào đó. Các điều kiện này có thể là một truy vấn hay một văn bản.
Khi điều kiện đưa vào là một truy vấn, bài toán sẽ đưa ra các suy luận để tìm ra đặc trưng của câu truy vấn đó, sau đó so sánh với các đặc trưng của các tài liệu có sẵn để tìm ra các tài liệu phù hợp nhất với câu truy vấn đó. Trong bài toán này, mô hình của bài toán gần với bài toán Search Engine. Tuy nhiên, bài toán thu thập thông tin là bài toán được phát triển ở mức độ cao hơn. Đối với bài toán Search Engine, câu truy vấn đưa vào là tập hợp các niệm. Nhưng với bài toán thu thập thông tin, câu truy vấn đưa vào có thể là một câu văn có ngữ nghĩa. Hệ thống sẽ tìm cách phân tích ngữ nghĩa của câu truy vấn để tìm ra đặc trưng của nó.
Thông tin cần thiết
Truy vấn
Gửi cho Hệ thống
Nhận kết quả
Đánh giá kết quả
Tốt ?
Dừng lại
Đúng
Công thức hoá lại
Sai
Hình 2. Mô hình thu thập thông tin chuẩn
Khi thu thập dữ liệu, chúng ta thường cố gắng tìm kiếm các dữ liệu chính xác. Trong các trường hợp khác, chúng ta kiểm tra để xem một thông tin có trong một tệp tin hay không. Khi thu thập thông tin, kết quả chính xác thường được quan tâm, nhưng thông thường chúng ta muốn tìm kiếm một cách tương đối chính xác với một thông tin đặc biệt được đưa vào. Sau đó chúng ta sẽ tự chọn thông tin phù hợp nhất từ các kết quả của phép xử lý trước đó. Nếu chúng ta so sánh nó với các kiểu hệ thống khác nhau, chúng ta sẽ thấy rằng trong nội dung các truy vấn cơ sở dữ liệu, một phép tìm kiếm thực chất là để làm thoả mãn một truy vấn, là câu hỏi để tìm ra câu trả lời (được biết đến với khái niệm trích xuất thông tin) đặc biệt là với một câu hỏi đặc biệt. Trong thu thập thông tin, một phép tìm kiếm nhằm tìm ra một tài liệu mà người dùng đang cần. Các hệ thống thu thập thông tin (IR systems) được sử dụng để thu thập các tài liệu liên quan đến các yêu cầu rõ ràng. Vấn đề với thu thập thông tin là việc xử lý các văn bản có nội dung liên quan nội tại đến các văn bản được sử dụng trước đó. Hình 2 đưa ra một mô hình tương tác thu thập thông tin chuẩn. Hiển nhiên, việc thu thập thông tin là quá trình xử lý lặp lại, với xử lý đầu vào và đầu ra bao gồm vòng lặp tính toán lại yêu cầu.
Thao tác này chuyển đổi truy vấn theo một chiến lược có sẵn nhằm tăng tính phù hợp của tài liệu đã nhận được.
Việc thu thập thông tin có thể được định nghĩa cho bất cứ một loại thông tin nào ví dụ như kiểu văn bản, hình ảnh, âm thanh... Tuy nhiên, ở đây chúng ta chỉ đề cập đến việc thu thập văn bản bởi văn bản là một loại thông tin mà cách thực hiện và kỹ thuật xử lý đơn giản hơn. Có thể nhấn mạnh rằng các kỹ thuật này cũng có thể được áp dụng cho thu thập thông tin đa phương tiện.
Các kỹ thuật thu thập thông tin có thể được chia ra thành hai loại:
Các kỹ thuật chuẩn
Các kỹ thuật có áp dụng trí tuệ nhân tạo.
Nhóm đầu tiên bao gồm các kỹ thuật dựa trên các cách thuật toán và toán học truyền thống. Nhóm thứ hai cố gắng thu thập tri thức bằng các kỹ thuật áp dụng trí tuệ nhân tạo để giành được các kết quả tốt hơn.
b. Các phương pháp thu thập thông tin
Ngày nay, các thông tin đang được phát triển mạnh mẽ về số lượng và chủ yếu là từ Internet. Internet đã trở thành nơi lưu trữ, quản lý và đặc biệt là nơi thu nhận thông tin nhanh chóng và tiện lợi. Lợi ích trung tâm là các thông tin thu nhận được phù hợp với nhu cầu người dùng. Đó là lý do của các nghiên cứu chuyên sâu trong các lĩnh vực như khai phá dữ liệu (DataMining), trích xuất thông tin (Information Extraction), thu thập thông tin (Information Retrieval).
Rất nhiều các phương pháp thu thập thông tin được phát triển và kết quả mà chúng đem lại khá tốt. Trong đó có rất nhiều phương pháp tồn tại ở dạng chuẩn. Các phương pháp này thường dựa theo các phương pháp toán học cổ điển. Một số phương pháp khác được phát triển theo hướng dựa trí tuệ nhân tạo. Sau đây, chúng ta sẽ tìm hiểu sâu hơn về các phương pháp thu thập thông tin.
b.1. Các phương pháp chuẩn
Phần lớn các kỹ thuật chuẩn được phát triển từ những năm 1960 đến những năm 1970, và phần lớn trong số chúng dựa trên các thuật toán và công thức toán học truyền thống. Trong bài nghiên cứu này chỉ đề cập đến các mô hình mô hình Boolean (Boolean model), mô hình không gian vec-tơ (vector space model).
b.1.1. Mô hình Boolean
Boolean là mô hình nghiên cứu chiến lượng, đơn giản nhất, và được thể hiện để đưa ra ý tưởng cơ bản cho các chiến lượng xa hơn [4]. Hầu hết đồng ý rằng tất cả các chiến lược nghiên cứu dựa trên việc so sánh giữa câu truy vấn và các tài liệu đ...

Tạo bởi	Tiêu đề	Blog	Lượt trả lời	Ngày
D	HỆ THỐNG NHẬN DẠNG VÀ PHÂN LOẠI VĂN BẢN	Luận văn Kinh tế	0	25/9/18
B	Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng Việt	Luận văn Sư phạm	4	14/8/16
N	Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiến	Công nghệ thông tin	0	21/9/15
Q	Phân loại hợp đồng vô hiệu : Luận văn ThS. Luật: 60 38 50	Luận văn Luật	2	8/9/15
B	Phân loại tài sản trong pháp luật dân sự Việt Nam : Luận văn ThS. Luật: 60 38 30	Luận văn Luật	0	31/8/15
K	Text Mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn	Tài liệu chưa phân loại	1	1/6/14
T	luận văn thạc sĩ Nghiên cứu phân loại rác tại nguồn và tái chế tại chỗ chất hữu cơ với sự tham gia	Khoa học kỹ thuật	3	23/1/14
D	hệ thống phân loại sản phẩm bằng xử lý ảnh	Công nghệ thông tin	0	20/11/23
D	nghiên cứu khoa học: Hệ thống phân loại sản phẩm PLC	Công nghệ thông tin	0	20/11/23
D	Phân tích quy định về một loại hợp đồng thông dụng trong BLDS 2015	Luận văn Luật	0	6/11/23

Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp

i_love_you_foreve_215

New Member

Download miễn phí Luận văn Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp

Tóm tắt nội dung tài liệu:

thienthan_dangyeu4125

New Member

Download miễn phí Luận văn Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp

Tóm tắt nội dung tài liệu:

Các chủ đề có liên quan khác