tctuvan

New Member
Chia sẽ cho các bạn đồ án

MỤC LỤC............................................................................................................ 1
MỞ ĐẦU .............................................................................................................. 3
Chương 1: TỔNG QUAN................................................................................... 5
1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval): ..............5
1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR):...............................9
1.2.1 Khái niệm:................................................................................................9
1.2.2 Các vấn đề của CLIR:...........................................................................10
1.3 Các hướng tiếp cận:......................................................................................11
1.3.1 Dịch máy (Machine Translation for Text Translation):....................11
1.3.2 Dựa trên từ điển đa ngữ (Multilingual Thesauri):.............................14
1.3.3 Dựa trên ngữ liệu (Corpus-based techniques):...................................22
1.4 Một số công trình nghiên cứu trong và ngoài nước: .................................30
1.4.1 Ở Việt Nam: ...........................................................................................30
1.4.2 Trên thế giới: .........................................................................................31
1.5 Kết luận: ........................................................................................................32
Chương 2: CƠ SỞ LÝ THUYẾT..................................................................... 35
2.1 Giới thiệu về MRD (Machine Readable Dictionary).................................35
2.1.1 Sơ lược lịch sử phát triển MRD trên thế giới: ....................................35
2.1.2 Vai trò và cấu trúc của MRD:..............................................................39
2.1.3 Khai thác tài nguyên từ điển:...............................................................41
2.1.4 Xây dựng từ điển tự động:....................................................................42
2.1.5 Cấu trúc vĩ mô và vi mô của từ điển MRD:........................................43
2.1.6 Một số từ điển MRD: ............................................................................43
2.2 Các phương pháp tách từ: ...........................................................................51
2.2.1 Mô hình WFST:.....................................................................................51
2.2.2 Mô hình MMSEG: ................................................................................57
2.3 Các phương pháp khử nhập nhằng: ...........................................................64
2.3.1 Giới thiệu: ..............................................................................................64
2.3.2 Khử nhập nhằng:...................................................................................65
2.4 Kết luận: ........................................................................................................70
Chương 3: PHÂN TÍCH và THIẾT KẾ ......................................................... 72
3.1 Tổng quan hệ thống:.....................................................................................72
3.1.1 Phát biểu bài toán: ................................................................................72
3.1.2 Mô hình hệ thống: .................................................................................72
3.1.3 Phát sinh quản lý:..................................................................................73
3.2 Phân tích – thiết kế hệ thống: ......................................................................76
3.2.1 Mô hình Usecase:...................................................................................76
3.2.2 Đặc tả usecase: .......................................................................................77
3.2.3 Sơ đồ tuần tự: ........................................................................................78
3.2.4 Thiết kế lớp: ...........................................................................................81
3.2.5 Thiết kế giao diện: .................................................................................94
3.3 Xây dựng hệ thống: ......................................................................................97
3.3.1 Tổ chức các MRD:.................................................................................97
3.3.2 Phương pháp tìm kiếm dựa trên MRD:............................................106
3.3.3 Tìm kiếm tài liệu bằng công cụ tìm kiếm:.........................................110
CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM............................................... 112
4.1 Cài đặt:.........................................................................................................112
4.1.1 Tiền xử lý: ............................................................................................112
4.1.2 Cấu trúc dữ liệu:..................................................................................112
4.1.3 Dịch từ từ điển:....................................................................................113
4.1.4 Khử nhập nhằng :................................................................................113
4.1.5 Tìm kiếm: .............................................................................................116
4.2 Thử nghiệm: ................................................................................................117
4.2.1 Module dịch và khử nhập nhằng: ......................................................117
4.2.2 Chương trình demo trên web:............................................................117
4.3 Đánh giá :.....................................................................................................119
4.3.1 Module dịch và khử nhập nhằng: ......................................................119
4.3.2 Chương trình tìm kiểm trên Web:.....................................................120
Chương 5: KẾT LUẬN và HƯỚNG PHÁT TRIỂN ................................... 122
5.1 Kết luận: ......................................................................................................122
5.2 Huớng phát triển: .......................................................................................122
5.2.1 Đối với từ điển và ngữ liệu: ................................................................122
5.2.2 Đối với IR Engine:...............................................................................123
5.2.3 Mở rộng ngôn ngữ tìm kiếm cho hệ thống: ......................................124
PHỤ LỤC......................................................................................................... 125
TÀI LIỆU THAM KHẢO.............................................................................. 132

MỞ ĐẦU
Với sự phát triển nhanh chóng của công nghệ tin học, khối lượng thông tin được lưu
trữ trên máy tính ngày càng nhiều. Vì vậy cần có các hệ thống tìm kiếm thông tin
(Information Retrieval) cho phép người dùng tìm kiếm một cách chính xác và nhanh
nhất các thông tin mà họ cần trên kho tư liệu lớn này. Hơn nữa, trong xu thế toàn
cầu hóa như hiện nay, rất nhiều các tổ chức, các công ty quốc tế hình thành, lại xuất
hiện một nhu cầu mới trong việc tìm kiếm thông tin đó là tìm kiếm thông tin đa ngữ để
người dùng có thể khai thác một cách hiệu quả nhất kho tài liệu đa ngữ mà họ có. Một
ví dụ cụ thể về kho tư liệu đa ngữ là Internet. Các trang Web bằng nhiều ngôn ngữ
khác nhau xuất hiện ngày càng nhiều, trong khi các công cụ tìm kiếm đơn ngữ (search
engine) chỉ có thể trả về các tài liệu được viết cùng ngôn ngữ với ngôn ngữ của câu
truy vấn (query). Do đó vấn đề đặt ra là liệu có thể xây dựng một hệ tìm kiếm thông
tin mà thông tin trả về là tất cả các tài liệu ở các ngôn ngữ khác nhau trong kho tư liệu
có liên quan đến câu truy vấn (không phụ thuộc vào ngôn ngữ của câu truy vấn). Đây
chính là bài toán đặt ra cho việc nghiên cứu các hệ tìm kiếm đa ngữ/ xuyên ngữ
(multilanguage IR/ cross language IR).
Mục tiêu của các hệ thống tìm kiếm xuyên ngữ là cung cấp công cụ cho người dùng để
có thể mô tả nhu cầu tìm kiếm thông tin ở ngôn ngữ mà mình diễn đạt giỏi nhất
(thường là tiếng mẹ đẻ), hệ thống sẽ phải trả về tất cả các tài liệu ở tất cả các ngôn ngữ
có trong kho tư liệu đang tìm kiếm có liên quan đến nhu cầu thông tin của người dùng.
Trên đây là nhu cầu chung của hầu hết các ngôn ngữ và tiếng Việt của chúng ta cũng
không phải là ngoại lệ. Khác với các ngôn ngữ khác, tiếng Việt có nhiều đặc điểm
riêng biệt và rất khó xử lý bằng máy tính, nên các đề tài nghiên cứu hay các chương
trình ứng dụng liên quan đến các hệ thống tìm kiếm bằng tiếng Việt còn rất ít. Mà nhu
cầu tìm kiếm tài liệu trên kho tàng kiến thức của thế giới của người Việt là rất lớn. Với
mong muốn phát triển nhiều hơn nữa các hệ thống tìm kiếm xuyên ngôn ngữ bằng
tiếng Việt, chúng tui xây dựng “Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt –

Anh – Hoa” cho phép người dùng nhập câu truy vấn bằng tiếng Việt và trả về các tài
liệu có liên quan bằng tiếng Việt, tiếng Anh và tiếng Hoa. Trong luận văn này chúng
tui lựa chọn tiếng Anh và tiếng Hoa là hai thay mặt tiêu biểu cho hai loại hình ngôn
ngữ biến hình và đơn lập. Từ đó cho thấy rằng hệ thống tìm kiếm thông tin xuyên ngữ
có thể thực thi trên hai loại hình ngôn ngữ khác nhau.
Bố cục của luận văn gồm các chương sau:
• Chương 1 – TỔNG QUAN : giới thiệu tổng quan về hệ thống tìm kiếm
(IR), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR), các hướng tiếp cận
và các vấn đề cần giải quyết của hệ thống.
• Chương 2 – CƠ SỞ LÝ THUYẾT: trình bày cơ sở lý thuyết và các
phương pháp đã nghiên cứu trong luận văn.
• Chương 3 – PHÂN TÍCH VÀ THIẾT KẾ: phân tích và thiết kế hệ
thống.
• Chương 4 – CÀI ĐẶT VÀ KIỂM TRA: cài đặt, kiểm thử chương trình.
• Chương 5 – KẾT LUẬN và HƯỚNG PHÁT TRIỂN: trình bày các kết
quả đạt được, các đánh giá về hệ thống và hướng phát triển trong tương lai.
• Phần TÀI LIỆU THAM KHẢO và PHỤ LỤC: trình bày các thông tin có
liên quan được sử dụng trong luận văn.
Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 

Các chủ đề có liên quan khác

Top