Download Luận văn Tìm hiểu về đối sánh lược đồ và xây dựng ứng dụng vnmatch

Download miễn phí Luận văn Tìm hiểu về đối sánh lược đồ và xây dựng ứng dụng vnmatch





Chương 1 Mở đầu. 1
1 Đối sánh lược đồ.2
2 Sựhỗn tạp ngữnghĩa.3
3 Định nghĩa bài toán.6
3.1 Schemas.6
3.2 Đầu vào bài toán (Input).7
3.3 Đầu ra bài toán (Output).7
3.4 Kiến trúc chung .8
4 Ứng dụng của bài toán đối sánh lược đồ.9
4.1 Các ứng dụng tích hợp dữliệu và data warehouse.9
4.2 E-Business . 11
4.3 Semantic Web . 12
5 Các vấn đềmở. 13
5.1 Khảnăng biểu diễn của ngôn ngữ. 13
5.2 Làm việc với các lược đồcó kích thước lớn . 13
5.3 Sựkết hợp của các phương pháp đối sánh . 14
Chương 2 Các phương pháp tiếp cận . 15
1 Các dựán liên quan . 15
1.1 COMA++ . 15
1.2 SEMINT . 16
1.3 LSD . 16
1.4 SKAT. 16
1.5 TransScm . 16
1.6 DIKE . 17
1.7 SIMILARITY FLOODING. 17
1.8 Cupid . 17
2 Các phương pháp đối sánh lược đồ. 20
2.1 Tiêu chuẩn phân loại . 20
2.2 Đối sánh dựa trên schema (schema-based) . 21
2.2.1 Phương pháp tiếp cận dựa trên ngôn ngữ(linguistic). 22
2.2.2 Phương pháp tiếp cận dựa trên ràng buộc. 23
2.2.3 Phương pháp tiếp cận dựa trên cấu trúc . 23
2.3 Đối sánh dựa trên dữliệu . 23
2.4 Đối sánh kết hợp. 24
2.5 Match Cardinality . 24
2.6 Các hệsốmặc định trong bài toán đối sánh . 25
3 Các phương pháp đánh giá hệthống đối sánh . 26
Chương 3 Thiết kếhệthống đối sánh lược đồ. . 30
1 Khảo sát. 30
2 Giới thiệu . 33
2.1 Giới thiệu bài toán đối sánh lược đồ. . 33
2.2 Xửlý schema trong tiếng Việt . 33
3 Thiết kế. 35
3.1 Kiến trúc hệthống . 35
3.2 Input . 36
3.2.1 Schema .
3.2.2 WordNet . 39
3.2.3 Output . 40
3.3 Mức ngôn ngữ(linguistic matching) . 41
3.3.1 Các thuật toán đối sánh cơbản . 42
3.3.2 Thuật toán đối sánh kết hợp . 44
3.4 Mức cấu trúc . 51
3.5 Chọn lựa ánh xạ. 55
4 Cài đặt và kết quả. 56
4.1 Cài đặt . 56
4.2 Kết quảthửngiệm . 60
5 Kết luận và hướng phát triển . 71
5.1 Kết luận . 71
5.2 Hướng phát triển . 72
Tài liệu tham khảo . 75
Sách, bài báo, luận văn. 75
Website .



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

), đối
sánh từng cặp của các phần tử đầu vào. Số cạnh của của đường dẫn ngắn nhất
giữa các phần tử được sử dụng như khoảng cách để xác định các phần tử liên
quan.
• Thuật toán tự động xác định quan hệ ngữ nghĩa
(synonymy,hypernymy,homonymy) giữa các phần tử của các lược đồ
ER.
1.7 SIMILARITY FLOODING
SIMILARITYFLOODING[10] chuyển đổi các lược đồ (Rational, RDF, XML)
vào trong một đồ thị gán nhãn và tính toán theo kiểu fix-point để xác định tương
ứng địa phương 1:1 và m:n giữa các node của đồ thị. Thuật toán sử dụng phương
pháp đối sánh hybrid với một bộ đối sánh đơn giản cho các thuộc tính name.
Không giống các phương pháp đối sánh dựa trên lược đồ khác,
SIMILARITYFLOODING không khai thác các quan hệ thuật ngữ trong các từ điển
ngoài như (synonym, wordnet …) mà chỉ dựa trên thuộc tính name. Thuật toán
chính được sử dụng trong SIMILARITYFLOODING là đối sánh dựa trên cấu trúc.
1.8 Cupid
Cupid [3] là hệ thống đối sánh kết hợp (hybrid) bao gồm kỹ thuật đối sánh
trên mức ngôn ngữ và cấu trúc. Thuật toán đối sánh lược đồ ánh xạ giữa các
phần tử của lược đồ dựa trên tên, kiểu dữ liệu, các ràng buộc, cấu trúc của lược
đồ và sự trợ giúp của từ điển đồng nghĩa. Cupid nhắm vào việc tính toán hệ số
tương tự giữa các các phần tử của 2 lược đồ và đưa ra sự ánh xạ từ các hệ số
này.
18
Luận văn Th.s: Tìm hiểu về đối sánh lược đồ và xây dựng ứng dụng VNMatch
Ngô Văn Quân, lớp cao học CNTT 2004
• Tự động đối sánh dựa trên ngôn ngữ
• Đối sánh dựa trên cả phần tử và cấu trúc
• Hướng tới sự tương tự của các phần tủ nguyên tố (Ví dụ như các lá),
vì vậy ngữ nghĩa của lược đồ sẽ được thu nhận nhiều hơn
• Khai thác các khóa (key), các ràng buộn và các view
Đối sánh mức ngôn ngữ sẽ so sánh các phần tử của lược đồ một các độc
lập dựa trên tên, kiểu dữ liệu, lĩnh vực.. Chúng ta sẽ sử dụng một từ điển gần
nghĩa (thesaurus) để trợ giúp việc so sánh các name bằng cách xác định các từ
rút gọn, các từ viết tắt, và các từ đồng nghĩa.
Đối sánh ngôn ngữ trong Cupid được chia thành 3 bước sau:
1. Chuẩn hoá (Normalization): Trong bước này chúng ta chuẩn hoá phần tử,
phân tích phần tử bằng cách tokenization (phân tích các phần tử dựa trên
dấu chấm câu, chữ hoa, chữ thường ...). Trong bước này ta sử dụng từ
điển đồng nghĩa
2. Phân loại theo các phần tử (Categorization): Các phần tử của lược đồ được
phân loại thành các nhóm khác nhau, sự phân loại này được dựa trên kiểu
của dữ liệu (datatype), tên của thuộc tính (name). Một phần tử có thể
thuộc nhiều loại.
3. So sánh (Comparison): Trong bước này sẽ tính toán một hệ số gọi là hệ số
tương tự về ngôn ngữ giữa các phần tử (linguistic similarity-ls).
Kết quả của pha này là một bảng các hệ số lsim của các phần tử giữa hai
lược đồ. Hệ số lsim nằm trong khoảng [0,1]. Nếu lsim = 1 thì hai phần tử
hoàn toàn tương đương nhau.
Để so sánh độ tương tự của hai chuỗi đầu vào dựa trên phân tích token,
Cupid sử dụng công thức sau.
19
Luận văn Th.s: Tìm hiểu về đối sánh lược đồ và xây dựng ứng dụng VNMatch
Ngô Văn Quân, lớp cao học CNTT 2004
Công thức 1: Cupid, hệ số tương tự của hai tập hợp
21
)2,1(*)11(22
max)2,1(*)22(11
max
)2,1( TT
ttsimTtTtttsimTtTt
TTns +
∈∑ ∈+∈∑ ∈=
Chú thích:
Các thuộc tính được phân tích thành các từ (word) hay token, ta có một
tập các token để biểu diễn các phần tử của lược đồ
1.Chọn một token từ phần tử thứ nhất
2.Tìm kiếm token giống nhất với token đã cho.
3.Thực hiện 1) và 2) đối với mọi token của phần tử thứ nhất và
tính tổng độ giống nhau.
4. Thực hiện 1) 2) 3) cho phần tử thứ 2
5.Chuẩn hóa 2 tổng với tổng số token của phần tử thứ nhất và
thứ hai
Đánh giá theo category
Cho w1 … w2 là hệ số ưu tiên theo category với 1=∑ iw
Công thức 2: Cupid, đánh giá theo Category


=
TokenTypei
iTiTnsiwAAns )2,1(.)2,1(
Cuối cùng ta có công thức tính hệ số tương tự giữa hai thuộc tính
Công thức 3: Cupid, công thức tính lsim
),(max).,(),( 21,2121 21
TTnsAAnsAAlsim
CTT ∈
=
Đây là công thức cho ra kết quả cuối cùng của đối sánh dựa trên ngôn ngữ.
20
Luận văn Th.s: Tìm hiểu về đối sánh lược đồ và xây dựng ứng dụng VNMatch
Ngô Văn Quân, lớp cao học CNTT 2004
2 Các phương pháp đối sánh lược đồ
Đã có rất nhiều các nghiên cứu trong nhiều lĩnh vực khác nhau như chuyển
đổi và tích hợp lược đồ (schema translation, schema integration), biểu diễn tri
thức, học máy và các hệ thống thu thập thông tin nhắm tới mục đích tự động quá
trình đối sánh lược đồ nhiều nhất có thể. Mục đích của phần này giới thiệu các
phương pháp tiếp cận trong các lĩnh vực đó, các đặc điểm chung và ứng dụng của
nó.
Trong phần tiếp theo, tui trình bày các tiêu chí phân loại cho bài toán đối
sánh lược đồ được tham khảo trong [6].
2.1 Tiêu chuẩn phân loại
Bài toán đối sánh lược đồ đã được nghiên cứu trong một thời gian dài, và
đã có nhiều ứng công cụ thể áp dụng bài toán này.
Hình 3 minh họa các phương pháp đối sánh lược đồ đã được nghiên cứu và phát
triển trong các ứng công cụ thể.
Hình 2-2: Các phương pháp đối sánh lược đồ
21
Luận văn Th.s: Tìm hiểu về đối sánh lược đồ và xây dựng ứng dụng VNMatch
Ngô Văn Quân, lớp cao học CNTT 2004
Chúng ta phân biệt các phương pháp đối sánh dựa trên phương pháp tiếp
cận mà chúng sử dụng
• Schema-based ›‹ Instance-based: Schema-based chỉ sử dụng các
thông tin chứa trong lược đồ như metadata, name, type, description... Còn
Instance-based sử dụng dữ liệu để trích lọc ngữ nghĩa (contents)
• Element-based ›‹ Structural-based: Element-based là quá trình đối
sánh có thể thực hiện trên từng phần tử trong lược đồ một cách độc lập, ví
dụ như các thuộc tính (attributes). Structural-based thực hiện đối sánh có
sự kết hợp các phần tử lại với nhau.
• Linguistic ›‹ Constraint: Đối sánh có thể sử dụng cách tiếp cận ngôn ngữ
như so sánh các thuộc tính name, description .. hay sử dụng cách tiếp cận
ràng buộc như xem xét cả ràng buộc định nghĩa trên các phần tử như kiểu
dữ liệu, unique, key…
• Hybrid ›‹ Composite: Để có một kết quả đối sánh tốt hơn người ta
thường kết hợp một vài cách tiếp cận với nhau. Các cách tiếp cận này có
thể được thực hiện trong một bộ đối sánh hybrid hay kết hợp các kết quả
đối sánh của các cách tiếp cận độc lập (composite)
2.2 Đối sánh dựa trên lược đồ (schema-based)
Phương pháp đối sánh dựa trên lược đồ chỉ xem xét các thông tin về lược
đồ, tùy thuộc vào việc sử dụng ngôn ngữ định nghĩa lược đồ các ta có các thuộc
tính khác nhau của phần tử lược đồ như name, description, data type,
constraints, .. và các quan hệ giữa chúng. Tiếp theo tui trình bày về bộ đối sánh
dựa trên ngôn ngữ và ràng buộc, phương pháp tiếp cập chung đối với mức
element để so sánh các thuộc tính của các phần tử lược đồ để xác định độ tương
đồng giữa chúng.
22
Luận văn Th.s: Tìm hiểu về đối sánh lược đồ v...
 

Các chủ đề có liên quan khác

Top