Download miễn phí Đề tài Hệ thống tích hợp dữ liệu bán cấu trúc bằng XML





Mục lục
PHẦN I: TỔNG QUAN VỀ HỆ THỐNG TÍCH HỢP DỮ LIỆU BẰNG XML 3
I)GIỚI THIỆU 3
II)CÁC KIẾN THỨC CƠ SỞ CỦA HỆ THỐNG 4
1)XML 4
2)RDF 5
3)Ontology 6
III)KIẾN TRÚC VÀ CÁC THÀNH PHẦN CỦA HỆ THỐNG 7
1)Kiến trúc: 7
2)Các thành phần của hệ thống 7
a)Meta Data 7
b)Khối tương tác MetaData 9
c)Wrapper 9
d)Query Engine 9
e)Tách truy vấn 9
f)Hợp dữ liệu 9
g)Giao tiếp mạng: 10
PHẦN II: TÁCH TRUY VẤN VÀ HỢP DỮ LIỆU TRONG HỆ THỐNG TÍCH HỢP DỮ LIỆU BÁN CẤU TRÚC 11
I)TÁCH TRUY VẤN: 11
1)Biểu diễn truy vấn người dùng: 11
2)Truy vấn dữ liệu XQuery: 13
3)Tách truy vấn: 16
a)Phân tích từ vựng 18
b)Phân tích cú pháp 19
c)Phân tích cấu trúc 19
d)Lấy ánh xạ tương ứng từ MetaData 20
e)Xây dựng câu truy vấn con cho mỗi nguồn: 21
II)HỢP DỮ LIỆU: 22
PHẦN III: CÀI ĐẶT HỆ THỐNG TÍCH HỢP DỮ LIỆU 23
1)CÀI ĐẶT BỘ CÔNG CỤ TRUY VẤN DỮ LIỆU XML 23
2)CÀI ĐẶT CÁC THÀNH PHẦN CỦA HỆ THỐNG. 23
a)Giao tiếp mạng: 23
b)Khối giao tiếp Meta Data: 25
c)Khối tách truy vấn và hợp dữ liệu 25
PHẦN IV:KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN 28
1)KẾT QUẢ ĐÃ ĐẠT ĐƯỢC 28
2)HƯỚNG PHÁT TRIỂN 28
 
 



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

ng sẽ dựa vào MetaData để tiến hành tích hợp dữ liệu.
II)Các kiến thức cơ sở của hệ thống
1)XML
XML, ngôn ngữ đánh dấu mở rộng- Extensible Markup Language, do tổ chức W3C phát triển và chuẩn hóa cho mục đích biểu diễn và trao đổi dữ liệu trên Web.
XML là ngôn ngữ đánh dấu giống HTML nhưng HTML chỉ định dạng cách thể hiện của dữ liệu còn dữ liệu phải được hiểu bằng con người. Trong khi đó với XML dữ liệu có thể được hiểu bằng máy nhờ đó các máy tính có thể dễ dàng trao đổi và xử lý dữ liệu. Bên cạnh đó XML biểu diễn dữ liệu không theo khuân dạng định trước và các thẻ định nghĩa có thể do con người tự đặt. Do vậy XML cho phép lưu trữ dữ liệu theo mô hình bất kỳ và ta có thể dễ dàng chuyển đổi dữ liệu từ các định dạng khác nhau về XML
Tài liệu XML sẽ nhóm dữ liệu trong các phần tử giới hạn bởi các thẻ đóng, mở phần tử dữ liệu . Các thẻ đóng mở có thể lồng nhau nhờ vậy ta có thể biểu diễn cấu trúc bất kỳ của một đối tượng.
Có 2 kiểu tài liệu của XML là :
Tài liệu XML hợp khuân dạng (well-formed Document ): tài liệu phải được thể hiện theo chuẩn cấu trúc cú pháp nhất định
Tài liệu XML hợp lệ (valid Document ): Trong tài liệu ta phải có định nghĩa kiểu tư liệu DTD để khai báo tư liệu và cấu trúc của tài liệu
DTD (Document Type Definition):
Khi định nghĩa thẻ XML, ta tuỳ ý quyết định cách sử dụng chúng. Ví dụ như ta quyết định phần tử chỉ chứa dữ liệu thuần Text hay chứa các phần tử con khác như , . Phần tử sẽ chứa thêm thẻ con hay chỉ đơn giản lưu nội dung text của một trang sách nào đó. Tuy nhiên để rõ ràng, ta nên định nghĩa kiểu dữ liệu mà mỗi phần tử sẽ biểu diễn
Một tài liệu XML được xem là hợp lệ và có giá trị khi toàn bộ các phần tử trong tài liệu được định nghĩa kiểu (type definition) mà nó sẽ chứa. Việc định nghĩa kiểu dữ liệu cho các phần tử thẻ còn gọi là định nghĩa kiểu tư liệu (DTD - Document Type Definition)
Khi một tài liệu XML có định nghĩa DTD, rõ ràng chưa cần xem qua toàn bộ nội dung tài liệu ta đã biết được ý nghĩa và cấu trúc của toàn bộ tài liệu.
2)RDF
RDF cung cấp cách thức định nghĩa và mô tả tài nguyên một cách chuẩn hóa. RDF là một nền tảng để xử lý siêu dữ liệu đặc biệt là tài nguyên trên Web. RDF dựa trên mô hình dữ liệu đồ thị và sử dụng định dạng XML để xử lý siêu dữ liệu. RDF được phân biệt làm 2 loại lược đồ RDF và mô tả RDF.
RDF được sử dụng để mô tả bất kỳ kiểu tài nguyên nào mà chúng được định danh bởi URI. Mô hình dữ liệu của RDF gồm 3 thành phần chính :
Resource : thể hiện mọi đối tượng thông tin trong thế giới thực qua URI (định danh tài nguyên thống nhất )
Property: mô tả thuộc tính, tính chất hay quan hệ của tài nguyên
Statement : Một tài nguyên cụ thể cùng với thuộc tính và giá trị của nó được gọi là RDF statement. Có 3 thành phần độc lập của statement được gọi là subject, predicate, object.
Ngôn ngữ đặc tả lược đồ RDF là ngôn ngữ kiểu khai báo được sử dụng để định nghĩa các RDF schema. Ngôn ngữ này được kết hợp từ mô hình biểu diễn ngữ nghĩa, ngôn ngữ định nghĩa lược đồ cơ sở dữ liệu và mô hình đồ thị. Một lược đồ RDF định nghĩa các lớp và thuộc tính mà chúng có thể được thể hiện trong RDF.
Trong hệ thống tích hợp dữ liệu của ta RDF schema được dùng để biểu diễn Ontology
3)Ontology
Ontology là một đặc tả hình thức tường minh chính quy cho các khái niệm thuộc một lĩnh vực. Ontology biểu diễn cho cấu trúc thông tin bao gồm các khái niệm và mối quan hệ giữa các khái niệm.Xét về hình thức Ontology không khác gì so với lược đồ khái niệm nhưng Ontology có tính tổng quát hơn. Lược đồ khái niệm của một nguồn dữ liệu phải biểu diễn cấu trúc thông tin của nguồn trong khi đó Ontology không biểu diễn cấu trúc thông tin của một nguồn cụ thể mà nó đưa ra cấu trúc liên ứng đối với một nhóm các nguồn dữ liệu, được diễn giải cụ thể với từng nguồn thông qua cơ chế ánh xạ thông tin.
Trong hệ thống tích hợp dữ liệu bán cấu trúc của ta, các nguồn dữ liệu được biểu diễn ở những dạng khác nhau nên để cho quá trình tích hợp dữ liệu được dễ dàng và chính xác ta phải chuyển thể hiện của các dữ liệu từ mức vật lý thành mức khái niệm. Ontology đựơc dùng để thể hiện mức khái niệm của nguồn dữ liệu. Nhờ có Ontology mà ta có thể biểu diễn dữ liệu từ các nguồn không đồng nhất thành một dạng thống nhất ở mức khái niệm.
III)Kiến trúc và các thành phần của hệ thống
1)Kiến trúc:
2)Các thành phần của hệ thống
a)Meta Data
Lưu thông tin về Lược đồ tổng thể và ánh xạ giữa lược đồ tổng thể và lược đồ cục bộ
Về cơ bản lược đồ tổng thể và ánh xạ sẽ được xây dựng dựa trên lược đồ cục bộ . Các nguồn dữ liệu có thể rất phong phú về nhiều chủ đề khác nhau. Wrapper sẽ đưa ra một lược đồ cục bộ cho mỗi nguồn (DTD). Kỹ sư tri thức dựa vào lược đồ cục bộ để xây dựng được lược đồ tổng thể và ánh xạ.
Lược đồ tổng thể và ánh xạ sẽ được biểu diễn dưới mô hình Ontology vì nó mô tả chính xác và đầy đủ mối quan hệ giữa các thành phần trong các nguồn dữ liệu. Đồng thời nó cũng giải quyết được các vấn đề hỗn tạp ngữ nghĩa, cấu trúc trong tích hợp dữ liệu.
Mô tả lược đồ
Mô tả ánh xạ
Các mô hình này sẽ được thể hiện lưu trữ trong các file XML hay RDF. XML rất linh hoạt với các tag do người dùng tự định nghĩa nên ta hoàn toàn có thể dùng XML để biểu diễn các mô hình trên. RDF cũng là một trong các chuẩn để biểu diễn Ontology
b)Khối tương tác MetaData
Khối này sẽ thực hiện giao tiếp với MetaData để phục vụ cho quá trình tách truy vấn và hợp dữ liệu
Đầu vào là các khái niệm cần tìm ứng với lược đồ tổng thể
Đầu ra các các khái niệm cục bộ tương ứng trong ánh xạ
c)Wrapper
Nhiệm vụ của Wrapper là nhận câu truy vấn, phân tích câu truy vấn và chuyển các dữ liệu cần thiết từ các dạng khác nhau về dữ liệu dạng XML. Ngoài ra Wrapper còn phải đưa ra được lược đồ cục bộ (DTD) cho mỗi nguồn dữ liệu để phục vụ cho công việc tích hợp lược đồ.
Do kích thước một cơ sở dữ liệu là vô cùng lớn nên ta sẽ không thể thực hiện được việc chuyển đổi toàn bộ cơ sở dữ liệu về dạng XML sau đó mới tích hợp vì như thế vừa lãng phí tài nguyên lưu trữ và thời gian chuyển đổi.
Do vậy Wrapper của ta có 2 nhiệm vụ chính:
Đưa ra một lược đồ cục bộ cho nguồn dữ liệu bằng việc đưa ra DTD
Chuyển đổi các dữ liệu được yêu cầu về dạng XML để phục vụ cho truy vấn và tiến hành truy vấn để đưa ra kết quả.Ví dụ như truy vấn chỉ yêu cầu đưa ra tên tác giả của quyển sách thì Wrapper chỉ chuyển đổi các dữ liệu tên tác giả thành XML
Dữ liệu XML là những dữ liệu đã được chuyển đổi theo yêu cầu. Khi có truy vấn Query Engine sẽ tìm trong dữ liệu XML, nếu đã có thì truy vấn luôn. Nếu chưa có thì thực hiện chuyển đổi trong Wrapper.
d)Query Engine
Query Engine là một thành phần trong Wrapper sẽ truy vấn trên nguồn dữ liệu XML và đưa ra kết quả dưới dạng XML
Truy vấn trên XML sẽ sử dụng XQuery
 

Các chủ đề có liên quan khác

Top