rica17

New Member
Link tải luận văn miễn phí cho ae Kết nối
Xây dựng hệ thống Tóm tắt văn bản tiếng Việt sử dụng các kỹ thuật lượng giá, thống kê

MỤC LỤC

MỤC LỤC 2
DANH MỤC CÁC HÌNH VẼ 6
DANH MỤC CÁC BẢNG 8
DANH MỤC CÁC TỪ VIẾT TẮT 9
CHƯƠNG I - MỞ ĐẦU 10
1.1 Khai thác văn bản. 11
1.1.1 Khai thác văn bản là gì? 11
1.1.2 Một số bài toán tiêu biểu trong Khai thác văn bản 11
1.2 Bài toán TTVB - Automatic Text Summarization (ATS) 13
1.2.1 Tóm tắt văn bản (TTVB) 13
1.2.2 Ứng dụng của TTVB 13
1.2.3 Giải quyết bài toán TTVB 14
1.3 Mục đích lựa chọn đề tài 15
1.4 Các mục tiêu cụ thể trong đồ án 15
CHƯƠNG II - CÁC PHƯƠNG ÁN GIẢI QUYẾT BÀI TOÁN TÓM TẮT VĂN BẢN 16
2.1 Một số khái niệm cơ bản về TTVB 17
2.1.1 Mô hình một hệ thống TTVB. 17
2.1.1.1 Các loại TTVB 17
2.1.1.2 Các tiêu chí khi thực hiện tóm tắt 18
2.1.1.3 Mô hình bên ngoài của một hệ thống Tóm tắt 18
2.1.2 Qui trình thực hiện TTVB 19
2.1.2.1 Quá trình tiền xử lý 20
2.1.2.2 Quá trình xử lý 21
2.1.2.3 Quá trình sinh kết quả 21
2.2 Các giải thuật TTVB. 23
2.2.1 Giải thuật dựa trên giá trị trọng số của thuật ngữ (Determining Term Weights) . 23
2.2.1.1 Một số định nghĩa. 23
2.2.1.2 Giải thuật lựa chọn câu có trị trung bình tần số cao nhất 24
2.2.2 Giải thuật dựa trên phân nhóm các đoạn văn trong văn bản (Paragraphs Clustering for Summarization) 25
2.2.2.1 Định nghĩa phân nhóm. 25
2.2.2.2 Giải thuật cho bài toán phân nhóm 26
2.2.2.3 Áp dụng phân nhóm văn bản cho bài toán TTVB 27
2.2.2.4 Đánh giá 27
2.2.3 Giải thuật sử dụng các đặc trưng tóm tắt kết hợp thuật toán học máy (Summarization using Machine Learning Algorithm) 28
2.2.3.1 Các đặc trưng của tóm tắt (Summaried Features) 28
2.2.3.2 Kết hợp các đặc trưng (Features Combination) để tạo tóm tắt 29
2.2.3.3 Áp dụng giải thuật học máy (Machine Learning Algorithm) 30
2.2.3.4 Đánh giá 31
2.2.4 Giải thuật áp dụng các đặc trưng liên kết ngữ nghĩa trong văn bản (Summarization using Cohesion Features) 32
2.2.4.1 Các định nghĩa cơ bản 32
2.2.4.2 Liên kết ngữ nghĩa ứng dụng trong TTVB 33
2.4.2.3 Giải thuật áp dụng chuỗi từ vựng để TTVB (Summarization using Lexical Chains) 34
2.4.2.3 Đánh giá 35
2.2.5 Giải thuật áp dụng các đặc trưng liên kết cấu trúc trong văn bản (Summarization using Coherence Features) 35
2.2.5.1 Khái niệm về liên kết cấu trúc (Coherence). 35
2.2.5.2 Áp dụng liên kết cấu trúc cho TTVB. 35
2.2.6 Kết luận 36
CHƯƠNG III - TIỀN XỬ LÝ VĂN BẢN TIẾNG VIỆT 37
3.1 Phương pháp tách thuật ngữ tiếng Việt 38
3.2 Xây dựng từ điển 41
3.2.1 Tổ chức cấu trúc bản ghi trong từ điển 41
3.2.2 Tổ chức kết cấu 45
3.2.2.1 Lưu trữ theo danh sách sắp xếp 45
3.2.2.2 Lưu trữ sử dụng bảng băm 46
3.3 Loại bỏ từ dừng (stop world) 48
3.4 Biểu diễn văn bản theo mô hình không gian véc tơ 49
3.1.1 Mô hình Boolean 49
3.1.2 Mô hình tần suất TF 49
3.1.3 Mô hình nghịch đảo tần số văn bản – IDF 49
3.1.4 Mô hình kết hợp TF-IDF 50
3.1.5 Mô hình véc tơ thưa 50
3.1.6 Các công thức tính toán trên mô hình không gian véc tơ 50
CHƯƠNG IV - THIẾT KẾ VÀ XÂY DỰNG HỆ THỐNG 52
4.1 Mô hình hệ thống 53
4.2 Module xử lý văn bản 55
4.2.1 Nhiệm vụ 55
4.2.2 Mô hình chức năng 55
4.3.2 Thực hiện 55
4.3.2.1 Chuẩn hoá văn bản 55
4.3.2.2 Tách thuật ngữ 56
4.3.2.3 Loại bỏ từ dừng 59
4.3.2.4 Thống kê từ khoá, tạo kết quả 59
4.3 Module thực hiện giải thuật 1 61
4.3.1 Một số nhận định quan trọng. 61
4.3.2 Mô hình chức năng 62
4.3.3 Thực hiện 62
4.3.3.1 Hệ số ghi điểm 62
4.3.3.2 Tính trọng số các câu 63
4.3.3.3 Sắp xếp, tính ngưỡng và đưa ra kết quả 63
4.4 Module thực hiện giải thuật 2 65
4.4.1 Mô hình của giải thuật 65
4.4.2 Tách thuật ngữ đại diện 65
4.4.3 Véc tơ hoá đoạn văn. 66
4.4.4 Phân nhóm đoạn văn 67
4.4.5 Trích rút Tóm tắt. 67
4.5 Module thực hiện giải thuật 3 71
4.5.1 Mô hình giải thuật. 72
4.5.2 Trích rút theo đặc trưng 72
4.5.3 Giải thuật học máy 76
4.5.4 Áp dụng kết hợp 77
4.6 Module tạo kết quả. 78
4.7 Cài đặt hệ thống. 79
4.7.1 Môi trường và công cụ cài đặt. 79
4.7.2 Mô tả chương trình. 79
4.7.2.1 Các lớp chính được thiết cho chương trình: 79
4.7.2.2 Giao diện chính chương trình 80
4.7.2.3 Giao diện giải thuật 1 81
4.7.2.4 Giao diện giải thuật 2 82
4.7.2.5 Giao diện giải thuật 3 83
4.8 Minh hoạ một số thực nghiệm và đánh giá 84
4.8.1 Đại lượng đánh giá độ chính xác. 84
4.8.2 Cơ sở dữ liệu thực nghiệm 85
4.8.3 Thực nghiệm trên modul Tiền xử lý văn bản. 87
4.8.4 Thực nghiệm trên các module Tóm tắt. 87
TỔNG KẾT 89
TÀI LIỆU THAM KHẢO 90

2.2.1.1 Một số định nghĩa.
- Tần suất thuật ngữ (term frequency) của một từ w trong một văn bản d, ký hiệu TF(w,d) là số lần xuất hiện của từ w trong văn bản d.
- Tần suất văn bản (document frequency) của một từ w, ký hiệu DF(w) là số lượng văn bản mà từ w có xuất hiện. Nghịch đảo của tần suất văn bản (inverse document frequyency) của một từ w, ký hiệu IDF(w) được cho bởi công thức:
IDF(w) = 1 + log(|D| / DF(w))
trong đó |D| là số lượng văn bản trong tập văn bản nguồn.
- Tần suất TF-IDF (term document frequency) là kết hợp của hai loại tần suất nói trên:
TF-IDF(w,d) = TF(w,d) * IDF(w)
Như vậy, chỉ số TF(w) của một từ w cao khi từ đó xuất hiện nhiều trong văn bản, chỉ ra rằng nó có giá trị nội dung trong văn bản đó cao, còn chỉ số IDF(w) của một từ w cao nếu từ đó xuất hiện trong ít văn bản, chỉ ra rằng từ đó có giá trị phân biệt văn bản cao. Do vậy, các từ có giá trị TF-IDF(w,d) sẽ đặc trưng cho một văn bản.
- Tần suất TF-ISF (term sentence frequency) cũng tương tự như tần suất TF-IDF(w,d) nhưng khác nhau ở chỗ TF-ISF thay mặt cho giá trị từ w trong câu s chứ không phải trong văn bản d, ký hiệu TF-ISF(w,s), được tính bởi công thức:
TF-ISF(w,s) = TF(w,s) * ISF(w)
trong đó TF(w,s) là số lần xuất hiện của từ w trong câu s, và nghịch đảo ISF(w) được cho bởi công thức:
ISF(w) = 1 + log(|S| / SF(w)),
với tần suất câu SF(w) là số lượng câu có chứa từ w, |S| là số câu trong văn bản.
- Tần suất trung bình của câu. Với mỗi câu s, tần suất trung bình TF-ISF của câu, ký hiệu Avg-TF-ISF(s) được tính bằng trung bình số học TF-ISF(w,s) của tất cả các từ w trong câu. Đó là:

trong đó W(s) là số lượng các từ trong câu.
2.2.1.2 Giải thuật lựa chọn câu có trị trung bình tần số cao nhất
Mô hình minh hoạ giải thuật như sau:

Bước 1: Tách các thuật ngữ khỏi văn bản gốc.
Bước 2: Đưa các thuật ngữ về cùng một dạng format, loại bỏ từ dừng.
Bước 3: Duyệt từ đầu tới cuối văn bản, với mỗi thuật ngữ xuất hiện, lập ma trận trọng số wij tính tần số xuất hiện của thuật ngữ i trong câu j.
Bước 4: Dựa vào ma trận wij, tính tần suất trung bình Avg-TF-ISF(s) cho mỗi câu s trong văn bản.
Bước 5: Tìm câu có giá trị Avg-TF-ISF cao nhất.
Bước 6: Trích rút những câu s có giá trị Avg-TF-ISF(s) > Max Avg-TF-ISF * k với k là hệ số cho trước.
Hình 4: Giải thuật tóm tắt dựa trên trung bình trọng số cao nhất
Độ phức tạp của giải thuật là không lớn. Trong trường hợp xấu nhất là tích của số thuật ngữ và số câu trong văn bản. Neto và các đồng sự[4] khi áp dụng giải thuật này cho hệ thống của mình đã so sánh kết quả của hệ thống với một hệ thống tóm tắt khác được đánh giá cao (CGI/CMU). Kết quả cho thấy hệ thống tuy đơn giản nhưng tóm tắt được xây dựng có tính khái quát nội dung rất cao (chưa kiểm chứng với tập mẫu).
2.2.2 Giải thuật dựa trên phân nhóm các đoạn văn trong văn bản (Paragraphs Clustering for Summarization)
Giải thuật dựa trên phân nhóm đoạn văn (PCS) là phương pháp xây dựng tóm tắt bằng cách áp dụng bài toán phân nhóm văn bản (Text Clustering, xem chương I).
2.2.2.1 Định nghĩa phân nhóm.
Phân nhóm là một hoạt động quan trọng của con người và nó thường hình thành cơ sở cho học tập và tri thức. Chẳng hạn, một đứa trẻ học cách phân biệt giữa động vật và thực vật hay giữa chim và cá bằng cách không ngừng cải thiện lược đồ phân loại tiềm thức. Cơ bản, lược đồ đó được rèn luyện bằng cách quan sát các đặc điểm hay tính chất của đối tượng.
Ví dụ mô tả việc phân loại các quả bóng có cùng dấu.
Cho 10 quả bóng với 3 loại dấu khác nhau (hình 5). Chúng ta phân các quả bóng thành 3 nhóm (3 cụm) bằng những dấu của chúng (hình 6).

Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
D Các phương án thiết kế cần trục container Kiến trúc, xây dựng 0
A Một số giải pháp cơ bản và phương án nhằm giải quyết các trường hợp sử dụng đất chưa hợp pháp tại xã Khoa học Tự nhiên 0
T Hoàn thiện phương pháp phân tích hiệu quả các dự án đầu tư xây dựng cơ sở hạ tầng kỹ thuật khu công Kiến trúc, xây dựng 0
D Nghiên cứu đề xuất các phương án có cơ sở khoa học và khả thi quản lý chất thải rắn Quận 3, thành ph Khoa học Tự nhiên 0
S Các báo cáo kết quả kiểm kê, đánh giá và lập phương án củng cố, phát triển bộ mẫu vật động vật có xư Luận văn Sư phạm 0
A Nghiên cứu xây dựng định hướng và các phương án giảm phát thải khí nhà kính trên cơ sở đảm bảo các m Luận văn Sư phạm 0
L Nghiên cứu các dịch vụ mới và phương án áp dụng cho mạng di động VINAPHONE Công nghệ thông tin 0
T Nghiên cứu phương pháp lập trình cực hạn áp dụng cho các dự án thuê ngoài Công nghệ thông tin 0
G Áp dụng phương pháp dạy học dự án vào việc dạy tiếng Pháp tại các lớp Song ngữ, trường THPT Chuyên T Luận văn Sư phạm 0
B Kiểm tra kiến thức học sinh bằng các câu hỏi tự luận để lựa chọn các phương án nhiễu cho hệ thống câ Luận văn Sư phạm 0

Các chủ đề có liên quan khác

Top