tuanthanh872008

New Member
Link tải luận văn miễn phí cho ae Kết nối
DANH SÁCH CÁC BẢNG 7
DANH SÁCH CÁC HÌNH VẼ 7
Phần 1 : TÌM HIỂU LÝ THUYẾT 10
Chương 1: TỔNG QUAN VỀ TÌM KIẾM THÔNG TIN 10
1. Giới thiệu về tìm kiếm thông tin 10
1.1 Khái niệm về tìm kiếm thông tin 10
1.2 Một số vấn đề trong việc tìm kiếm thông tin: 10
2. Hệ tìm kiếm thông tin – IRS 11
3. Các thành phần của một hệ tìm kiếm thông tin [1.1] 12
4. So sánh IRS với các hệ thống thông tin khác 13
4.1 Hệ quản trị cơ sở dữ liệu (DBMS) 14
4.2 Hệ quản lý thông tin (IMS) 14
4.3 Hệ hỗ trợ ra quyết định (DSS) 15
4.4 Hệ trả lời câu hỏi (QAS) 15
4.5 So sánh IRS với các hệ thống thông tin khác 16
Chương 2: XÂY DỰNG MỘT HỆ THỐNG TÌM KIẾM THÔNG TIN 17
1. Kiến trúc của hệ tìm kiếm thông tin. [1.3] 17
2. Một số mô hình để xây dựng một hệ tìm kiếm thông tin [1.2] 18
2.1 Mô hình không gian vector 18
2.2 Tìm kiếm Boolean 20
2.3 Tìm kiếm Boolean mở rộng 21
2.4 Mở rộng trong việc thêm vào trọng số của câu hỏi 22
2.4.1 Mở rộng cho số từ tuỳ ý 22
2.4.2 Thêm toán tử tự động 23
2.5 Mô hình xác suất 23
2.6 Đánh giá chung về các mô hình 24
3. Các bước để xây dựng một hệ tìm kiếm thông tin. [3.2] 24
3.1 Tách từ tự động cho tập các tài liệu 24
3.2 Lập chỉ mục cho tài liệu 24
3.3 Tìm kiếm 25
3.4 Sắp xếp các tài liệu trả về (Ranking) 25
4. Những khó khăn trong việc xây dựng một hệ thống tìm kiếm thông tin tiếng Việt 25
4.1 Khó khăn trong việc tách từ tiếng Việt 26
4.2 Vấn đề bảng mã tiếng Việt 26
4.3 Các khó khăn khác 26
Chương 3: TÁCH TỪ TỰ ĐỘNG 28
1. Tách từ trong Tiếng Anh 28
2. Tách từ trong Tiếng Việt 28
2.1 Một số đặc điểm chính về từ tiếng Việt [2.2] 28
2.1.1 Tiếng 28
2.1.2 Từ 29
2.2 Tách từ tự động tiếng Việt 29
3. Các phương pháp tách từ tiếng Việt 30
3.1 fnTBL (Fast Transformation-based learning) [3.1] 30
3.1.1 Mô tả 30
3.1.2 Áp dụng tách từ tiếng Việt 31
3.2 Longest Matching [1.4] 36
3.3 Kết hợp giữa fnTBL và Longest Matching 36
Chương 4: LẬP CHỈ MỤC 37
1. Khái quát về hệ thống lập chỉ mục 37
2. Phương pháp lập chỉ mục [1.1] 37
2.1 Xác định các từ chỉ mục 37
2.2 Các phương pháp tính trọng số của từ 39
2.2.1 Tần số tài liệu nghịch đảo 39
2.2.2 Độ nhiễu tín hiệu (The Signal – Noise Ratio) 39
2.2.3 Giá trị phân biệt từ (The Term Discrimination Value) 41
2.3 Lập chỉ mục tự động cho tài liệu tiếng Anh 42
3. Lập chỉ mục cho tài liệu tiếng Việt 44
4. Tập tin nghịch đảo tài liệu 45
4.1 Phân biệt giữa tập tin nghịch đảo và tập tin trực tiếp 45
4.2 Tại sao sử dụng tập tin nghịch đảo để lập chỉ mục 46
Phần 2 : PHÂN TÍCH VÀ THIẾT KẾ 48
Chương 5: PHÂN TÍCH 48
1. Sơ đồ UseCase hệ thống 48
2. Sơ đồ Lớp 50
2.1 Sơ đồ các lớp thể hiện 50
2.2 Sơ đồ các lớp xử lý 51
3. Tách từ 52
3.1 Sơ đồ UseCase 52
3.2 Sơ đồ Tuần tự 52
3.3 Sơ đồ Cộng tác 53
3.4 Sơ đồ Lớp 53
4. Lập chỉ mục 54
4.1 Sơ đồ UseCase 54
4.2 Sơ đồ Tuần tự 55
4.2.1 Tạo mới chỉ mục 55
4.2.2 Cập nhật chỉ mục 56
4.3 Sơ đồ Cộng tác 57
4.3.1 Tạo mới chỉ mục 57
4.3.2 Cập nhật chỉ mục 58
4.4 Sơ đồ Lớp 59
5. Tìm kiếm 60
5.1 Sơ đồ UseCase 60
5.2 Sơ đồ Tuần tự 60
5.3 Sơ đồ Cộng tác 61
5.4 Sơ đồ Lớp 62
Chương 6: THIẾT KẾ VÀ CÀI ĐẶT 63
1. Cấu trúc lưu trữ dữ liệu 63
1.1 Tập tin lưu nội dung tài liệu 63
1.1.1 Cấu trúc DTD / XSD 63
1.1.2 Tài liệu XML 65
1.2 Tập tin sau khi tách từ tài liệu 66
1.2.1 Cấu trúc DTD / XSD 66
1.2.2 Tài liệu XML 67
1.3 Tập tin chứa các từ không thể hiện nội dung của văn bản (stop list) 69
1.3.1 Cấu trúc DTD / XSD 69
1.3.2 Tài liệu XML 70
1.4 Tập tin chỉ mục đảo ( Inverted ). 70
1.4.1 Cấu trúc DTD / XSD 70
1.4.2 Tài liệu XML 72
1.5 Tập tin sau khi tách từ câu hỏi. 73
1.5.1 Cấu trúc DTD / XSD 73
1.5.2 Tài liệu XML 74
1.6 Tập tin chứa các từ của câu hỏi sau khi loại bỏ các từ trong danh sách StopList 75
1.6.1 Cấu trúc DTD / XSD 75
1.6.2 Tài liệu XML 76
1.7 Tập tin chứa các từ trong câu hỏi và các tài liệu liên quan 76
1.7.1 Cấu trúc DTD / XSD 76
1.7.2 Tài liệu XML 78
1.8 Tập tin chứa độ tương quan giữa câu hỏi và các tài liệu 79
1.8.1 Cấu trúc DTD / XSD 79
1.8.2 Tài liệu XML 81
2. Chi tiết các lớp đối tượng 82
2.1 Các lớp trong quá trình tách từ 82
2.1.1 Sơ đồ các lớp 82
2.1.2 Lớp tách từ ghép 82
2.1.3 Lớp tách từ 85
2.1.4 Lớp giao diện tách từ 88
2.2 Các lớp trong quá trình lập chỉ mục 90
2.2.1 Sơ đồ các lớp 90
2.2.2 Lớp lập chỉ mục 91
2.2.3 Lớp giao diện tạo mới chỉ mục 93
2.2.4 Lớp giao diện cập nhật chỉ mục 95
2.3 Các lớp trong quá trình tìm kiếm 97
2.3.1 Sơ đồ các lớp 97
2.3.2 Lớp tìm kiếm 98
2.3.3 Lớp giao diện tìm kiếm 104
3. Một số màn hình giao diện khác 108
3.1 Màn hình chính của chương trình 108
3.2 Màn hình tìm kiếm nhiều câu hỏi 109
3.3 Màn hình tìm kiếm chính ( giao diện Web) 111
3.4 Màn hình trả về các tài liệu tìm được ( giao diện Web) 112
3.5 Màn hình chi tiết của một tài liệu ( giao diện Web) 113
Phần 3 : TỔNG KẾT 114
1. Chương trình thử nghiệm 114
2. Đánh giá kết quả đạt được 114
3. Hướng phát triển 115
TÀI LIỆU THAM KHẢO 116
1. Sách 116
2. Luận văn 116
3. Website 116
MỞ ĐẦU
Trong thời đại bùng nổ thông tin như hiện nay, thông tin được lưu trữ trên máy tính ngày càng nhiều do đó việc tìm kiếm thông tin chính xác là nhu cầu thiết yếu đối với mọi người trong mọi lĩnh vực. Internet hiện nay đă trở thành một kho tư liệu lớn mà việc tìm kiếm thông tin trên kho tư liệu này cần được hỗ trợ bởi các công cụ tìm kiếm (search engine) tốt. Các hệ thống tìm kiếm thông tin thông dụng như Google, Yahoo Search đã đáp ứng được phần nào nhu cầu đó của mọi người. Tuy nhiên, các hệ thống này được xây dựng để xử lý và tìm kíếm các văn bản tiếng Châu Âu, chúng chưa thật sự phù hợp cho các văn bản tiếng Việt. Do đó nhu cầu phải có một công cụ tìm kiếm “hiểu” và xử lý tốt các văn bản tíếng Việt.
Các hệ tìm kiếm thông tin đều phải thực hiện giai đoạn lập chỉ mục (indexing) cho văn bản để trích các từ chỉ mục (index term) biểu diễn tốt nhất nội dung của văn bản. Giai đoạn này phụ thuộc vào ngôn ngữ của văn bản và phương pháp xử lý tự động ngôn ngữ đó. Hiện nay chưa có nhiều hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt có khai thác các đặc trưng của tiếng Việt cho việc lập chỉ mục.
Vì vậy mục tiêu của luận văn này nhằm xây dựng một hệ thống tìm kiếm thông tin bằng tiếng Việt có sử dụng các kết quả của xử lý ngôn ngữ tự nhiên tự động để xác định được các chỉ mục là các từ (word) hay từ ghép (compound word) của tiếng Việt.




Phần 1 : TÌM HIỂU LÝ THUYẾT
Chương 1: TỔNG QUAN VỀ TÌM KIẾM THÔNG TIN
1. Giới thiệu về tìm kiếm thông tin
1.1 Khái niệm về tìm kiếm thông tin
Tìm kiếm thông tin là tìm kiếm trong một tập tài liệu để lấy ra các thông tin mà người tìm kiếm quan tâm.
1.2 Một số vấn đề trong việc tìm kiếm thông tin:
Kể từ những năm 40, các vấn đề trong việc lưu trữ thông tin và tìm kiếm thông tin đã thu hút sự chú ý rất lớn. Với một lượng thông tin lớn thì việc tìm kiếm chính xác và nhanh chóng càng trở nên khó khăn hơn. Với sự ra đời của máy tính, rất nhiều ý tưởng lớn được đưa ra nhằm cung cấp một hệ thống tìm kiếm thông minh và chính xác. Tuy nhiên, vấn đề tìm kiếm sao cho hiệu quả vẫn chưa được giải quyết.
Về nguyên tắc, việc lưu trữ thông tin và tìm kiếm thông tin thì đơn giản. Giả sử có một kho chứa các tài liệu và một người muốn tìm các tài liệu liên quan đến yêu cầu của mình. Người đó có thể đọc tất cả các tài liệu trong kho, giữ lại các tài liệu liên quan và bỏ đi các tài liệu không liên quan. Rõ ràng giải pháp này không thực tế bởi vì tốn rất nhiều thời gian.
Với sự ra đời của máy vi tính tốc độ cao, máy tính có thể “đọc” thay cho con người để trích ra các tài liệu có liên quan trong toàn bộ tập dữ liệu. Tuy nhiên vấn đề lúc này là làm sao để xác định được tài liệu nào liên quan đến câu hỏi. Mục đích của một hệ thống tìm kiếm thông tin tự động là truy lục được tất cả các tài liệu có liên quan đến yêu cầu.
2. Hệ tìm kiếm thông tin – IRS
Sau đây là định nghĩa về hệ thống tìm kiếm thông tin của một số tác giả: [2.1]
Salton (1989):
“Hệ thống tìm kiếm thông tin xử lý các tập tin lưu trữ và những yêu cầu về thông tin, xác định và tìm từ các tập tin những thông tin phù hợp với những yêu cầu về thông tin. Việc truy tìm những thông tin đặc thù phụ thuộc vào sự tương tự giữa các thông tin được lưu trữ và các yêu cầu, được đánh giá bằng cách so sánh các giá trị của các thuộc tính đối với thông tin được lưu trữ và các yêu cầu về thông tin.”
Kowalski (1997) :
“Hệ thống truy tìm thông tin là một hệ thống có khả năng lưu trữ, truy tìm và duy trì thông tin. Thông tin trong những trường hợp này có thể bao gồm văn bản, hình ảnh, âm thanh, video và những đối tượng đa phương tiện khác.”
Hiểu đơn giản hệ thống tìm kiếm thông tin là một hệ thống hỗ trợ cho người sử dụng tìm kiếm thông tin một cách nhanh chóng và dễ dàng. Người sử dụng có thể đưa vào những câu hỏi, những yêu cầu (dạng ngôn ngữ tự nhiên) và hệ thống sẽ tìm kiếm trong tập các tài liệu (dạng ngôn ngữ tự nhiên) đã được lưu trữ để tìm ra những tài liệu có liên quan, sau đó sẽ sắp xếp các tài liệu theo mức độ liên quan giảm dần và trả về cho người sử dụng.


Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 

thjensuit

New Member
Re: [Free] Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục có cấu trúc

Ad pro ơi,

Cho mình xin tài liệu này với

Thank Ads nhé :)
 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
D xây dựng hệ chuyên gia tư vấn chọn trang phục mặc Công nghệ thông tin 0
D Nghiên cứu và đề xuất quy trình xây dựng hệ thống mạng an toàn Công nghệ thông tin 0
D Xây dựng hệ thống phân loại sản phẩm theo chất liệu Công nghệ thông tin 0
D Xây dựng phân hệ dịch vụ gọi xe và điều xe taxi tự động có hỗ trợ bản đồ số trên smartphone Luận văn Kinh tế 0
D Xây dựng hệ thống quản trị mạng dựa trên phần mềm mã nguồn mở Cacti và ứng dụng tại trường Đại học Hải Phòng Công nghệ thông tin 0
D Xây dựng hệ thống quản lý an toàn thực phẩm theo tiêu chuẩn ISO 22000:2005 cho dây chuyền sản xuất sữa tươi tiệt trùng của nhà máy sữa Nông Lâm Thủy sản 0
D Xây dựng hệ thống quản lý an toàn thực phẩm theo tiêu chuẩn ISO 22000:2005 Nông Lâm Thủy sản 0
D Phân tích thiết kế hệ thống quản lý vật liệu xây dựng Công nghệ thông tin 0
D Về phát huy dân chủ và đổi mới hệ thống chính trị cơ sở xây dựng nông thôn mới Văn hóa, Xã hội 0
D ĐẢNG ĐẢNG CỘNG SẢN VIỆT NAM lãnh đạo giải quyết mối quan hệ giữa xây dựng và bảo vệ miền bắc xã hội chủ nghĩa giai đoạn từ 1965 đến 1968 Môn đại cương 0

Các chủ đề có liên quan khác

Top