Download miễn phí Đồ án Xây dựng ứng dụng tóm lược tự động văn bản tiếng Việt



MỤC LỤC
DANH MỤC TỪ VIẾT TẮT 1
DANH MỤC HÌNH VẼ 2
MỤC LỤC 3
LỜI NÓI ĐẦU 7
Chương 1. KHAI PHÁ VĂN BẢN 10
1.1. Khai phá dữ liệu 10
1.2. Khai phá văn bản 11
1.3. Biểu diễn văn bản 12
1.3.1. Mô hình boolean 13
1.3.2. Mô hình không gian vector 13
a. Mô hình không gian vector chuẩn 13
b. Kỹ thuật TFxIDF 14
c. Mô hình vector thưa và các mô hình không gian vector khác 15
1.3.3. Các mô hình biểu diễn văn bản khác 16
a. Mô hình Xác suất 16
b. Mô hình Mạng Bayes 16
c. Mô hình tập thô dung sai 17
1.4. Các bài toán Khai phá văn bản điển hình 17
1.4.1. Bài toán Phân lớp văn bản 17
1.4.2. Bài toán Phân nhóm văn bản 18
1.4.3. Bài toán Đánh chỉ mục - Tìm kiếm 19
1.4.4. Bài toán Tóm tắt văn bản 19
1.5. Kết chương 20
Chương 2. XỬ LÝ NGÔN NGỮ TỰ NHIÊN 21
2.1. Tổng quan về Xử lý ngôn ngữ tự nhiên. 21
2.2. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên 23
2.2.1. Phân tách thuật ngữ - Phân tách đoạn và câu 23
2.2.2. Gán nhãn từ loại 24
2.2.3. Phân tích cú pháp 25
2.2.4. Phân tích ngữ nghĩa 26
2.3. Các đặc trưng ngôn ngữ của tiếng Việt 26
2.3.1 Đặc trưng về ngữ âm và âm vị 26
2.3.2 Đặc trưng về từ pháp và hình thái 27
2.3.3. Đặc trưng về ngữ pháp 28
2.4. Kết chương 30
Chương 3. BÀI TOÁN TÓM TẮT VĂN BẢN 31
3.1. Giới thiệu chung 31
3.1.1. Tóm tắt văn bản là gì ? 32
3.1.2. Các tiêu chí đánh giá 34
3.1.3. Phân loại bài toán Tóm tắt văn bản 35
3.2. Mô hình Tóm tắt văn bản 38
3.2.1. Mô hình chung 38
3.2.2. Các phương pháp áp dụng trong pha Phân tích 40
3.2.2.1. Phương pháp thống kê (Statistical Methods) 41
3.2.2.2 . Phương pháp cấu trúc 42
3.2.2.3. Kết luận về các phương pháp trong pha Phân tích 44
3.2.3. Các phương pháp áp dụng trong pha Biến đổi 45
3.2.3.1. Giản lược về cấu trúc câu ( Syntactic Condensation ) 45
3.2.3.2. Giản lược về mặt ngữ nghĩa ( Semantic Condensation) 46
3.2.3.3. Kết luận về các phương pháp trong pha Biến đổi 48
3.2.4. Các phương pháp áp dụng trong pha Generation 48
3.2.4.1. Phương pháp hiển thị phân đoạn ( Segmental Display ) 48
3.2.4.2. Phương pháp Hiển thị 50
3.2.4.3. Kết luận về các phương pháp trong pha Hiển thị 50
3.3. Đánh giá kết quả tóm tắt 51
3.3.1. Đánh giá bên trong (Intrinsic Evaluation) 52
3.3.1.1. Độ chặt chẽ mạch lạc ( Coherence ) 52
3.3.1.2. Độ hàm chứa thông tin ( Informationess ) 52
3.3.2. Đánh giá bên ngoài ( Extrinsic Evaluation ) 52
3.3.2.1. Độ phù hợp ( Relevance ) 52
3.3.2.2. Độ dễ đọc dễ hiểu ( Reading Comprehence ) 52
3.3.3. So sánh đánh giá bên trong - bên ngoài 52
3.3.4. Các phương pháp đánh giá 53
3.3.4.1. Độ chính xác (Precision ) và độ hồi tưởng (Recall) 53
3.3.4.2. Đánh giá độ tương tự về nội dung (Content-based Similarity) 54
3.3.4.2. Độ tương quan phù hợp (Relevance Correlation) 54
3.3.6. Các hệ đánh giá ứng dụng tóm tắt văn bản 55
3.4. Một số hệ thống tóm tắt văn bản trên thế giới 55
3.5. Kết chương 58
Chương 4. XÂY DỰNG ỨNG DỤNG TÓM LƯỢC VĂN BẢN TIẾNG VIỆT 59
4.1. Mô hình xây dựng ứng dụng 59
4.2. Cài đặt tiền xử lý văn bản tiếng Việt 61
4.2.1. Chuẩn hóa văn bản 61
4.2.2. Mô hình hóa văn bản. 61
4.2.3. Tách thuật ngữ. 62
4.3. Lựa chọn, cài đặt các kĩ thuật sử dụng trong bài toán Tóm tắt 65
4.3.1. Các phương pháp trong pha Phân tích 65
a. Phương pháp Title 66
b. Phương pháp Heading 67
c. Phương pháp NamedEntity - NE 68
d. Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence) 69
e. Phương pháp Tần suất xuất hiện của thuật ngữ 69
f. Phương pháp TFxIPF (Term Frequency times Inverted Paragraph Frequency) 70
4.3.2. Các phương pháp trong pha Biến đổi 71
4.3.2.1. Biến đổi nhờ vào rút gọn câu 71
4.3.2.2. Giản lược câu về mặt ngữ nghĩa 74
4.3.3. Các phương pháp trong pha Hiển thị 74
4.4. Kết chương 75
Chương 5. KIỂM THỬ VÀ ĐÁNH GIÁ ỨNG DỤNG 76
5.1. Giao diện kết quả thực nghiệm 76
5.2. Tập kiểm thử 81
5.3. Kết quả kiểm thử và đánh giá 82
5.3.1. Kiểm thử thuật toán tách term tiếng Việt 82
5.3.2. Kiểm thử thuật toán tách named Entity 83
5.3.3. Kiểm thử, đánh giá module chọn câu quan trọng 83
5.3.3.1. Phương pháp truyền thống 84
5.3.3.2. Phương pháp đánh giá theo độ tương tự nội dung 85
5.3.4. Kiểm thử đánh giá rút gọn câu 86
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 89
TÀI LIỆU THAM KHẢO 90

Hai thập kỷ gần đây, khắp nơi trên thế giới tràn ngập thông tin. Chính sự phát triển nhanh chóng của Công nghệ thông tin và Truyền thông đã đem lại cho thế giới của chúng ta bộ mặt mới. Các ứng dụng của Công nghệ thông tin - Truyền thông đã hiện diện trong hầu hết các ngành, các lĩnh vực của cuộc sống, kéo theo chúng là những thay đổi đáng kể. Nền kinh tế tri thức, hợp tác toàn cầu, những công việc quản lý, vận hành những hoạt động từ vi mô tới vĩ mô của doanh nghiệp, tin học hóa quy trình hành chính, điều khiển tác nghiệp, giải trí, liên lạc, trợ giúp... là những ứng dụng tiêu biểu của Công nghệ Thông tin và Truyền thông. Đặc biệt, sự ra đời của Internet - Mạng thông tin toàn cầu - được coi là nguyên nhân chính, thúc đẩy sự bùng nổ thông tin trên toàn thế giới. Những lợi ích mà Internet mang lại quá lớn khiến chúng ta phụ thuộc nhiều vào nó. Những người biết sử dụng linh hoạt và đúng đắn những lợi thế này sẽ phần nào vượt lên trên những thách thức của nền kinh tế tri thức toàn cầu để thu được những thành công trong công việc cũng như cuộc sống. Thông qua Internet, những thông tin quý giá về mọi lĩnh vực đều sẵn sàng đợi chúng ta khám phá và lĩnh hội.
Trong thế giới thông tin đa dạng phong phú như vậy, nhu cầu thu thập được những thông tin cần thiết, có giá trị đồng thời xử lý chúng thành dạng dữ liệu mong muốn là nhu cầu chính đáng và cấp thiết của nhân loại. Lĩnh vực của Công nghệ thông tin có thể đáp ứng những nhu cầu to lớn này là Khai phá dữ liệu.
Khai phá dữ liệu, vốn chỉ là một giai đoạn trong bảy giai đoạn của quá trình Phát hiện tri thức trong cơ sở dữ liệu, tuy nhiên, do là giai đoạn chính yếu, nên chúng ta thường đồng nhất, hay nói chính xác hơn là lấy Khai phá dữ liệu làm thay mặt cho cả quá trình Phát hiện tri thức trong cơ sở dữ liệu. Và vì vậy, Khai phá dữ liệu được hiểu như một quá trình lấy ra các thông tin quan trọng từ các dạng CSDL, biến đổi, xử lý chúng nhằm phục vụ những mục đích cụ thể của con người. Các phương pháp thường dùng trong Khai phá dữ liệu là các phương pháp Trích chọn, Thống kê hay Phân loại... Do phần lớn dữ liệu ở dạng văn bản nên một lĩnh vực nhỏ hơn là Khai phá văn bản được quan tâm chú ý hơn cả. Và trong đồ án này, em xin đề cập tới Khai phá văn bản như là tiền đề cho việc giải quyết bài toán Tóm tắt văn bản.
Khai phá dữ liệu - Khai phá văn bản tuy ra đời muộn nhưng đã đạt được nhiều thành tựu đáng kể và tất nhiên cũng đóng góp rất nhiều cho ngành Khoa học máy tính. Trên thế giới cũng như ở Việt Nam, các vấn đề của Khai phá văn bản đã và đang được tìm hiểu nghiên cứu cũng như xây dựng các ứng dụng mang tính thực tiễn cao. Tuy nhiên, vẫn còn rất nhiều vấn đề cần giải quyết, đặc biệt là ở Việt Nam, khi Khai phá văn bản mới được chúng ta quan tâm tới trong khoảng chục năm trở lại đây. Các bài toán điển hình của Khai phá văn bản như Phân lớp văn bản, Phân nhóm văn bản hiện mới trong quá trình nghiên cứu, chưa có một sản phẩm nào mang tính thương mại trên thị trường. Một bài toán khác của Khai phá văn bản là Thu thập thông tin đã được cài đặt thành các ứng dụng tìm kiếm trên mạng như các bộ máy tìm kiếm của Netnam (PanVietNam) hay Tinh Vân (Vinaseek). Nhưng những ứng dụng như vậy còn quá ít và chưa đáp ứng đầy đủ cho các nhu cầu to lớn của nền Công nghệ thông tin Việt Nam.
Trong khi lĩnh vực Khai phá dữ liệu mới trở thành đề tài nóng bỏng, cấp thiết gần đây do sự bùng nổ thông tin toàn cầu thì trong ngành Khoa học máy tính, có một lĩnh vực khác đã ra đời cách đây khá lâu, và cũng đã có nhiều thành tựu trong suốt quá trình phát triển của mình. Đó là lĩnh vực Xử lý ngôn ngữ tự nhiên. Mục đích của Xử lý ngôn ngữ tự nhiên là giúp cho máy tính và con người hiểu nhau hơn, thuận tiện hơn trong quá trình làm việc và đem lại lợi ích tối đa cho con người. Thông qua các giao tiếp thân thiện, dễ hiểu giữa người và máy, việc đưa Công nghệ thông tin thật sự đi vào đời sống nhân loại là mục tiêu lớn nhất mà Xử lý ngôn ngữ tự nhiên hướng tới.
Xử lý ngôn ngữ tự nhiên là quá trình xử lý sao cho máy tính có thể hiểu được một thông tin giống như cách mà con người hiểu thông tin đó thông qua các khía cạnh ngôn ngữ bao hàm trong nó. Theo định nghĩa này thì Xử lý ngôn ngữ tự nhiên là một phần của Trí tuệ nhân tạo - làm cho máy tính nắm bắt, thao tác, mô phỏng cách mà con người thực hiện. Vì vậy các phương pháp của Trí tuệ nhân tạo thường được dùng trong lĩnh vực Xử lý ngôn ngữ tự nhiên, kết hợp với các đặc trưng của ngành ngôn ngữ học như hình thái, ngữ pháp, ngữ nghĩa… Các bài toán điển hình của Xử lý ngôn ngữ tự nhiên là Trả lời tự động, Dịch máy, Sinh văn bản tự động, Kiểm tra chính tả…
Như vậy, hai lĩnh vực Khai phá dữ liệu và Xử lý ngôn ngữ tự nhiên có nhiều điểm khác biệt mặc dù cùng sử dụng một số các phương pháp của Trí tuệ nhân tạo. Nói đến Khai phá dữ liệu là nói đến việc tìm ra thông tin quan trọng, thông tin mong muốn từ một lượng lớn dữ liệu, còn nói đến Xử lý ngôn ngữ tự nhiên là nói đến việc máy tự phân tích và hiểu những khía cạnh ngôn ngữ trong thông tin cụ thể. Tuy nhiên, có một bài toán điển hình của Khai phá dữ liệu có sử dụng rất nhiều những khái niệm, mô hình, phương pháp của Xử lý ngôn ngữ tự nhiên, đó là bài toán Tóm tắt văn bản.
Bài toán tóm tắt văn bản thật ra đã được coi là một vấn đề của Xử lý ngôn ngữ tự nhiên khi nó lần đầu tiên được đề cập và nghiên cứu một cách nghiêm túc trong bài báo khoa học của Luhn vào năm 1958 [17] và tiếp đó là của Edminson vào năm 1969 [21]. Như vậy, Tóm tắt văn bản đã ra đời trước khi có sự ra đời của Khai phá văn bản ! Và khi Khai phá văn bản ra đời, dựa trên những đặc điểm của nó, người ta mới xếp Tóm tắt văn bản vào lĩnh vực mới mẻ này.
Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một nguồn để tạo ra một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể và người dùng cụ thể. Tóm tắt văn bản làm nhiệm vụ chọn ra các câu hàm chứa ý chính, các câu quan trọng nên về bản chất nó thuộc lĩnh vực của Khai phá văn bản. Tuy nhiên trong quá trình chắt lọc, rút gọn thì cần có sự áp dụng của các phương pháp Xử lý ngôn ngữ tự nhiên nếu muốn kết quả ra là một văn bản dễ đọc, dễ hiểu và mang ý nghĩa ngôn ngữ tự nhiên như đầu vào của nó. Tóm tắt văn bản có rất nhiều ứng dụng trong ngành Công nghệ thông tin cũng như Ngôn ngữ học và một số ngành khác. Trên thế giới đã có rất nhiều các ứng dụng Tóm tắt văn bản, với những mục đích nghiên cứu cũng như thương mại. Mặc dù vậy, do những khó khăn và thách thức riêng, Tóm tắt văn bản hiện nay chưa được nghiên cứu nhiều ở Việt Nam so với các bài toán điển hình khác trong lĩnh vực Khai phá văn bản. Chính vì lý do này em đã chọn Tóm tắt văn bản tiếng Việt là đề tài đồ án tốt nghiệp, mong muốn góp một phần công sức cho sự phát triển của Khai phá văn bản tiếng Việt nói riêng và Công nghệ thông tin Việt Nam nói chung.
Trong đồ án này em muốn trình bày những kết quả tìm hiểu về bài toán Tóm tắt văn bản và bước đầu xây dựng một Ứng dụng tóm tắt văn bản tiếng Việt, sử dụng kết hợp các phương pháp của Khai phá văn bản và Xử lý ngôn ngữ tự nhiên có xét tới những đặc trưng về ngôn ngữ của tiếng Việt.
Đồ án gồm các phần sau :
Chương 1. Trình bày về lĩnh vực Khai phá dữ liệu nói chung và Khai phá văn bản nói riêng, các vấn đề mô hình hóa văn bản cũng như đề cập sơ qua một số bài toán Khai phá văn bản điển hình.
Chương 2. Trình bày về lĩnh vực Xử lý ngôn ngữ tự nhiên, các vấn đề chung của Xử lý ngôn ngữ tự nhiên, các đặc trưng ngôn ngữ tiếng Việt cũng như các vấn đề riêng khi xử lý tự động văn bản tiếng Việt.
Chương 3. Trình bày những vấn đề cơ bản về bài toán Tóm tắt văn bản, bao gồm mô tả khái niệm chung và phân loại một bài toán Tóm tắt văn bản, lịch sử phát triển và những ứng dụng của Tóm tắt văn bản, mô hình chung và các phương pháp xây dựng một ứng dụng Tóm tắt văn bản…
Chương 4. Trình bày việc thiết kế và xây dựng ứng dụng tóm lược văn bản tiếng Việt VTAS dựa trên một số phương pháp trong các phương pháp đã nêu ở chương 3. Ngoài ra trong chương này, những cài đặt tiền xử lý văn bản cũng được em đề cập đến với những nét mới so với các công việc tương tự trước đây của một số nhà nghiên cứu lĩnh vực Khai phá văn bản tiếng Việt.
Chương 5. Trình bày việc kiểm thử và đánh giá ứng dụng VTAS, các kết quả thực nghiệm của chương trình.
Sau đó là phần kết luận và các hướng phát triển sắp tới của đề tài này.
Cuối cùng là phần tài liệu tham khảo và các phụ lục của đồ án.

Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 

KeaneBK

New Member
Re: [Free] Xây dựng ứng dụng tóm lược tự động văn bản tiếng Việt

Cho mình xin link tài liệu này! Thanks
 

tctuvan

New Member
Re: [Free] Xây dựng ứng dụng tóm lược tự động văn bản tiếng Việt

Link mới cập nhật, mời bạn xem lại bài đầu để tải nhé
 

danghatvnc

New Member
Re: [Free] Xây dựng ứng dụng tóm lược tự động văn bản tiếng Việt

Thank you!!
 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
D Hoàn thiện công tác cung ứng nguyên vật liệu tại công ty cổ phần đầu tư xây dựng quang trung 2018 Kiến trúc, xây dựng 0
D Xây dựng hệ thống quản trị mạng dựa trên phần mềm mã nguồn mở Cacti và ứng dụng tại trường Đại học Hải Phòng Công nghệ thông tin 0
D Tìm hiểu angular, ionic framework và xây dựng ứng dụng minh Công nghệ thông tin 0
D Xây dựng ứng dụng tìm kiếm và quản lý nhà trọ online trên điện thoại Công nghệ thông tin 0
D Bài tập lớn môn cơ sở dữ liệu Ứng dụng MySQL trong xây dựng hệ Cơ Sở Dữ Liệu quản lí bán máy tính Công nghệ thông tin 0
D Xây dựng đội ngũ công chức cấp xã đáp ứng yêu cầu cải cách hành chính nhà nước ở tỉnh hưng yên hiện nay Văn hóa, Xã hội 0
D Xây dựng đội ngũ cán bộ, công chức cấp xã ở huyện Thạch Hà đáp ứng yêu cầu cải cách hành chính nhà nước hiện nay Văn hóa, Xã hội 0
D Xây dựng ứng dụng quản lí cửa hàng thuốc tây Công nghệ thông tin 0
D Xây dựng văn hoá hành vi ứng xử trong doanh nghiệp Marketing 0
A Nghiên cứu và đề xuất mô hình chuẩn để xây dựng một ứng dụng Portal (Portlet) sử dụng JSR168 và độc Luận văn Kinh tế 0

Các chủ đề có liên quan khác

Top