Download miễn phí Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh - Hoa





MỤC LỤC.1

MỞ ĐẦU.3

Chương 1: TỔNG QUAN.5

1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval):.5

1.2 Hệthống tìm kiếm thông tin xuyên ngôn ngữ(CLIR):.9

1.2.1 Khái niệm:.9

1.2.2 Các vấn đềcủa CLIR:.10

1.3 Các hướng tiếp cận:.11

1.3.1 Dịch máy (Machine Translation for Text Translation):.11

1.3.2 Dựa trên từ điển đa ngữ(Multilingual Thesauri):.14

1.3.3 Dựa trên ngữliệu (Corpus-based techniques):.22

1.4 Một sốcông trình nghiên cứu trong và ngoài nước:.30

1.4.1 ỞViệt Nam:.30

1.4.2 Trên thếgiới:.31

1.5 Kết luận:.32

Chương 2: CƠSỞLÝ THUYẾT.35

2.1 Giới thiệu vềMRD (Machine Readable Dictionary).35

2.1.1 Sơlược lịch sửphát triển MRD trên thếgiới:.35

2.1.2 Vai trò và cấu trúc của MRD:.39

2.1.3 Khai thác tài nguyên từ điển:.41

2.1.4 Xây dựng từ điển tự động:.42

2.1.5 Cấu trúc vĩmô và vi mô của từ điển MRD:.43

2.1.6 Một sốtừ điển MRD:.43

2.2 Các phương pháp tách từ:.51

2.2.1 Mô hình WFST:.51

2.2.2 Mô hình MMSEG:.57

2.3 Các phương pháp khửnhập nhằng:.64

2.3.1 Giới thiệu:.64

2.3.2 Khửnhập nhằng:.65

2.4 Kết luận:.70

Chương 3: PHÂN TÍCH và THIẾT KẾ.72

3.1 Tổng quan hệthống:.72

3.1.1 Phát biểu bài toán:.72

3.1.2 Mô hình hệthống:.72

3.1.3 Phát sinh quản lý:.73

3.2 Phân tích – thiết kếhệthống:.76

3.2.1 Mô hình Usecase:.76

3.2.2 Đặc tảusecase:.77

3.2.3 Sơ đồtuần tự:.78

3.2.4 Thiết kếlớp:.81

3.2.5 Thiết kếgiao diện:.94





Để tải tài liệu này, vui lòng Trả lời bài viết, Mods sẽ gửi Link download cho bạn ngay qua hòm tin nhắn.

Ketnooi -


Ai cần tài liệu gì mà không tìm thấy ở Ketnooi, đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:


g của từ (word form), ví dụ: “program”, “book”,…
• Mã hình thái của từ (word morphology): từ nguyên gốc, dạng bất quy tắc,
như có gấp đôi phụ âm hay không, hay kết hợp với phụ tố (affix) nào…
• Mã loại của từ (word type): từ đơn, từ ghép; thành ngữ, viết tắt, …
Mã biến thể của từ (word variants): các biến thể khác của từ (nếu có): “programme”,
“colour”, “centre”, ...
2.1.6.1.2.2 Thông tin về ngữ pháp:
Bao gồm các thông tin về:
• Từ loại (Parts-of-speech) của từ, như: danh từ, động từ, tính từ,…
• Tiểu từ loại (Subcategory): như danh từ thuộc loại con nào (danh từ đếm
được, không đếm được,…), động từ loại con nào (tha động từ, tự động
từ,…),…
• Mã biến cách (inflection): thì (tense):quá khứ/hiện tại/tương lai; thể
(voice): bị động/chủ động; giống (gender): đực/cái/trung; số (number):
ít/nhiều,…
• Đặc tính cú pháp (syntactic features): từ này dùng trong cấu trúc nào,
mẫu câu (verb pattern, noun pattern,…) nào.
• Ngữ đi kèm (collocation/phrase/idiom): từ này hay đi kèm với những từ
nào, dùng trong ngữ (thành ngữ, tục ngữ) nào.
Riêng trong việc gán nhãn từ pháp, cả 3 thông tin: từ loại, tiểu từ loại và mã biến cách
nói trên sẽ được tích hợp vào chung nhãn từ pháp của PTB (Pann Tree Bank).
2.1.6.1.2.3 Thông tin về ngữ nghĩa:
Bao gồm các thông tin về:
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
45
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
• Nghĩa tiếng Việt (meaning) của từ. Trong phần này, các từ tiếng Việt đều
được phân định ranh giới từ. Ví dụ: từ “relationship” sẽ có phần nghĩa tiếng
Việt là: “mối/N quan_hệ/N”; “high-speed printer”: “máy_in/N tốc_độ/N
cao/J”;…
• Đặc điểm tiếng Việt: khi dịch ra tiếng Việt, cần hiệu chỉnh gì về nghĩa
(thêm, bớt các tiểu từ, loại từ, định từ,…), về vị trí.
• Nhãn ngữ nghĩa của từ (semantic tag): từ thuộc ý niệm nào, như: HUM,
ANM, PHO,… các ý niệm này chính là các nhãn ngữ nghĩa của từ.
• Vai trong ngữ pháp cách (case role): Agent (Human), Instrument
(Object),…
• Thông tin về nhóm đồng nghĩa (synonym)/phản nghĩa (antonym).
2.1.6.1.2.4 Thông tin về ngữ dụng:
Bao gồm các thông tin về:
• Lĩnh vực sử dụng (field): từ này thường được dùng trong những lĩnh vực
nào, ví dụ: Tin học, toán học, y học,...
• Tần số xuất hiện (frequency): từ này có thường được dùng hay không.
Tần suất xuất hiện của từ được đo bằng công thức
M
mf 10log−= với m là số
lần xuất hiện của từ và N là chiều dài văn bản thực hiện phép đo. Ví dụ: f=3,
có nghĩa là từ này xuất hiện với tần số 1/1000.
• Mã về tình thái (modality): dùng trong cảnh huống nào (trọng, thân,
tục,…).
2.1.6.1.3 Ví dụ một số mục từ trong từ điển tiếng Anh EDIC:
Đến nay, trong EDic đã tích hợp được hầu hết các thông tin quan trọng và cần thiết
nhất. Dưới đây là ví dụ của một số mục từ (entry) của EDic:
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
46
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Word Lemma Mor POS grm SEM Meaning Fre Field
on-line On_line C J STA trực_tuyến/J 2.021 cpt
Display Display W Vt Vcom hiển_thị/V 2.456 cpt
Display Display W Ns ART màn/N
hiển_thị/V
2.126 cpt
Children Child W Ns Pl HUM trẻ_em/N 2.673
Bank Bank W Ns NAT bờ/N sông/N 2.842
Bảng 2.1. Một số mục từ của EDic
Việc tích hợp các thông tin nói trên vào trong từ điển được thực hiện một cách bán tự
động bằng cách dùng mô hình thống kê của ngôn ngữ học – máy tính để thống kê tự
động trên những nguồn ngữ liệu lớn như: từ điển Anh-Việt, Brown, SUSANNE,
SEMCOR,… nhằm rút trích thông tin, sau đó các thông tin này sẽ được hiệu chỉnh bởi
người trước khi tích hợp vào từ điển.
2.1.6.2 Từ điển tiếng Việt VDIC:
2.1.6.2.1 Cấu trúc vĩ mô từ điển tiếng Việt VDIC:
Về cấu trúc vĩ mô của từ điển tiếng Việt VDic, bên cạnh các tiêu chí về tính nhất quán,
hướng đến văn phong Khoa học-Kỹ thuật, tác giả vẫn tuân theo các tiêu chí truyền
thống về chọn mục từ trong từ điển tiếng Việt phổ thông do GS.Hoàng Phê chủ biên
[10]. Từ điển điện tử tiếng Việt VDic này bao gồm khoảng 50.000 mục từ được lựa
chọn theo các tiêu chí cụ thể như sau[11]:
1. Từ điển bao gồm các từ/ngữ được sử dụng phổ biến trong các sách, báo,
tài liệu khoa học, kỹ thuật, nhất là trong tin học, không chứa các từ cổ. Từ điển
cũng chứa các ngữ cố định, từ láy (nhưng không chứa dạng láy).
2. Những danh từ chỉ loại (classifier, loại từ) sẽ không được tích hợp vào
trong mục từ. Ví dụ: trong từ điển sẽ chỉ có mục từ “thư”, “sách”, “bò”,… chứ
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
47
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
không có chứa bức thư/lá thư/cánh thư, quyển sách/cuốn sách, con bò,…Đối với
các mục từ này, thông tin về các loại từ có thể có của nó được ghi thêm vào trong
cấu trúc vi mô của nó. Xin xem danh sách loại từ ở phụ lục 9.1.2.
3. Những danh từ chỉ loài (categories) hay chủng loại (subcategories) sẽ
được tích hợp vào trong mục từ của từ điển. Ví dụ: “máy” – máy tính, máy in,
máy quét, máy vẽ, máy phát, máy đọc mã vạch, máy quay dĩa,…; “bộ” – bộ đếm,
bộ xử lý, bộ điều giải, bộ thu, bộ phát, … Riêng đối với những danh từ chỉ loài có
tính tổng quát và tính phổ biến cao mà trong thực tế có thể vắng mặt khi sử dụng,
tác giả sẽ ghi chú đặc điểm này vào trong cấu trúc vi mô của nó. Ví dụ: “bệnh”
trong bệnh lao, bệnh ho gà, bệnh uốn ván,… sẽ có đặc điểm này. Để xác định
được đầy đủ và chính xác các danh từ chỉ loài và danh từ chỉ chủng loại, tác giả
phải dựa trên cây phân loài có tính tổng quát của mạng WordNet [12].
4. Chứa những mục từ được sản sinh theo cách tựa phụ tố, như: -
hoá, -viên, -học, bất-, liên-, phó - , siêu-,… trong điện toán hoá, lập trình viên, vật
lý học, phó giám đốc, siêu sao,… được hình thành từ việc đối chiếu các phụ tố
dẫn xuất trong tiếng Anh tương ứng với hình vị tựa phụ tố có gốc Hán-Việt trong
tiếng Việt. Ví dụ: các phụ tố trên sẽ tương ứng với các phụ tố –ize, -or/-ian/-er/-
ist/…, -logy, in-, inter-, vice-, super-/hyper-/meta-,… trong tiếng Anh. Danh sách
các phụ tố dẫn xuất trong phụ lục 9.1.1.
5. Chỉ riêng với các đơn vị còn gây tranh cãi về tư cách từ, tác giả mới sử
dụng thêm thông tin từ vựng hoá của từ tiếng Anh tương ứng để chọn. Ví dụ:
đường thẳng (line), nhà tranh (cottage) là từ, còn nhà gạch (brick house) không là
từ. Còn các trường hợp khác (như: “ox” - “bò đực”), tác giả phải áp dụng các tiêu
chí ngôn ngữ học, chứ không thể xem tương đương.
6. Các mục từ trong từ điển được xếp tự động theo: mẫu tự tiếng Việt, dấu
thanh, và sau cùng mới xét đến mẫu tự kế (thứ tự mẫu tự và dấu thanh như cũ).
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
48
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Ví dụ: “…ba bai bang b...

 

Các chủ đề có liên quan khác

Top