Fabio

New Member

Download miễn phí Công cụ hỗ trợ tạo ngữ nghĩa trang Web sử dụng kỹ thuật tách thông tin từ văn bản





Nhiệm vụcủa khối tách thông tin từvăn bản là phát hiện những thông tin, dữliệu tương ứng với các khái niệm trong ontology, tách những thông tin này và chuyển cho khối sinh chú giải. Ví dụ, xét đoạn văn bản sau lấy từtrang Web đăng thông tin tuyển dụng lao động (Đểtiện cho việc trình bầy thuật toán, ví dụ được sửdụng là tiếng Việt. Trên thực tế, phương pháp tách văn bản được đềxuất cho tiếng Anh. Việc nghiên cứu ứng dụng cho tiếng Việt không nằm trong phạm vi bài báo này và có thể được trình bầy trong khuôn khổnhững nghiên cứu khác).



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

kiếm, chia sẻ thông tin
trên WWW. Hiện nay, thông tin trên WWW được
biểu diễn chủ yếu dưới dạng ngôn ngữ tự nhiên (các
trang Web trên ngôn ngữ HTML). Cách biểu diễn đó
phù hợp với con người nhưng lại gây ra nhiều khó
khăn cho các chương trình làm nhiệm vụ hỗ trợ tìm
kiếm, chia sẻ và trao đổi tin. Chương trình máy tính
không “hiểu” được thông tin và dữ liệu biểu diễn dưới
dạng thích hợp với con người.
Để giải quyết vấn đề này, nhiều tổ chức nghiên cứu
và kinh doanh đã phối hợp nghiên cứu và phát triển
Web có ngữ nghĩa (Semantic Web). Theo định nghĩa
của Tim Berners_Lee giám đốc tổ chức World Wide
Web Consortium ( đồng thời là
cha đẻ của WWW, Web có ngữ nghĩa là sự mở rộng
của WWW hiện tại bằng cách thêm vào các mô tả ý
nghĩa (hay ngữ nghĩa) của thông tin dưới dạng mà
chương trình máy tính có thể “hiểu” và do vậy cho
phép xử lý thông tin hiệu quả hơn [1]. Như vậy, Web
có ngữ nghĩa sẽ bao gồm các thông tin (trang Web)
được biểu diễn theo cách truyền thống cùng với ngữ
nghĩa của các thông tin này được biểu diễn một cách
tường minh. Việc thêm phần ngữ nghĩa cung cấp thêm
tri thức cho các chương trình (các agent), giúp nâng
cao chất lượng phân loại, tìm kiếm, trao đổi thông tin.
Muốn xây dựng Web có ngữ nghĩa cần có công cụ
hỗ trợ. Trong bài báo này, chúng tui mô tả bộ công cụ
mà chúng tui xây dựng phục vụ mục đích này cùng
với các giải pháp kỹ thuật được lựa chọn và sử dụng.
Phần quan trọng của bộ công cụ là phần tách thông tin
tự động cho phép rút ngắn thời gian tạo phần ngữ
nghĩa cho trang Web. Để minh hoạ cho việc sử dụng
và thử nghiệm bộ công cụ, bài báo cũng trình bầy một
ứng dụng tìm kiếm thông tin với những trang Web có
ngữ nghĩa do bộ công cụ tạo ra.
II. THÀNH PHẦN CỦA WEB CÓ NGỮ NGHĨA
Để tiện cho việc mô tả chức năng của bộ công cụ,
phần này sẽ trình bầy sơ lược về các thành phần của
Web có ngữ nghĩa. Các thành phần của Web có ngữ
nghĩa được chia thành ba nhóm chính như sau:
− Ontology và các ngôn ngữ dùng để biểu diễn ngữ
nghĩa thông tin.
− Các công cụ tạo nên phần ngữ nghĩa cũng như cấu
trúc hạ tầng của Web có ngữ nghĩa.
Công cụ hỗ trợ tạo ngữ nghĩa trang Web
sử dụng kỹ thuật tách thông tin từ văn bản
A Toolkit for Creating Semantic Web Contents Using
Information Extraction Techniques
Từ Minh Phương, Trịnh Hữu Kiên
− Các ứng dụng sử dụng Web có ngữ nghĩa.
Chức năng từng nhóm được trình bầy dưới đây.
1. Ngôn ngữ cho Web có ngữ nghĩa
Cơ chế cho phép chia sẻ và trao đổi ngữ nghĩa của
thông tin được biết đến và sử dụng lâu nhất là
ontology. Ontology là bản mô tả một cách tường minh
các khái niệm trong một miền ứng dụng nào đó cùng
với quan hệ giữa những khái niệm này. Ontology
cung cấp từ vựng chung cho việc trao đổi thông tin
giữa các ứng dụng và dịch vụ Web. Bản thân phần
ngữ nghĩa của Web có ngữ nghĩa bao gồm ontology
và giá trị cụ thể của khái niệm định nghĩa trong
ontology. Để biểu diễn ontology và dữ liệu cần có
ngôn ngữ thích hợp. Trong quá trình hình thành Web
có ngữ nghĩa, nhiều ngôn ngữ như vậy đã được đề
xuất và phát triển, trong đó được biết đến nhiều nhất
là RDF và RDFS [2], DAML+OIL [8,9].
RDF và RDF Schema. RDF (Resource Description
Framework) là cơ chế cho phép mô tả dữ liệu về dữ
liệu (meta data). RDF coi các đối tượng trên Web
(trang Web, đoạn văn, người, các đối tượng khác.v.v.)
là các tài nguyên. Mỗi tài nguyên được mô tả bởi bộ
ba đối tượng - thuộc tính – giá trị. Ví dụ, mệnh đề
“Phương là tác giả bài báo tại trang Web nào đó” sẽ
được mô tả bởi bộ ba: http:// www…, tác giả,
“Phương”. RDF Schema (RDFS) là một biến thể đơn
giản sử dụng cơ chế RDF. RDFS cho phép mô tả các
thuộc tính đặc thù cho ứng dụng, đồng thời định nghĩa
lớp các đối tượng có cùng thuộc tính đó. Việc định
nghĩa lớp đối tượng với thuộc tính và quan hệ rất cần
thiết cho việc xây dựng ontology.
DAML + OIL. RDF và RDF Schema chỉ cho phép
biểu diễn ngữ nghĩa ở mức độ đơn giản. Để biểu diễn
ngữ nghĩa bao gồm nhiều đối tượng có quan hệ lôgic
phức tạp với nhau cần các phương tiện biểu diễn
mạnh hơn. DAML (Darpa Agent Markup Language)
và OIL (Ontology Interface Layer) là các phương tiện
như vậy. DAML+OIL là một mở rộng của RDFS.
Trong DAML+OIL, ngữ nghĩa được mô tả thông qua
lôgic mô tả (descriptive logic) cho phép sử dụng lôgic
bool khi mô tả quan hệ giữc các đối tượng và có nhiều
kiểu quan hệ cơ sở hơn so với RDFS.
2. Công cụ cho Web có ngữ nghĩa
Để tạo và sử dụng Web có ngữ nghĩa cần có sự hỗ
trợ của các loại công cụ sau.
− Công cụ tạo và liên kết ontology. Các công cụ này
cho phép tạo ra khái niệm, thuộc tính của khái niệm,
quan hệ và phân cấp giữa các khái niệm. Công cụ
loại này thường có giao diện đồ hoạ và tuân theo
chuẩn của ứng dụng Web. Ví dụ điển hình cho công
cụ loại này là Protégé [11].
− Công cụ chú giải (annotation tools). Công cụ chú
giải cho phép tạo phần ngữ nghĩa, tức là giá trị cụ
thể của khái niệm, thuộc tính và quan hệ từ dữ liệu
thông thường phù hợp với một ontology nào đó. Giá
trị tạo ra có thể được biểu diễn bởi các ngôn ngữ
được nhắc tới ở phần trên. Hiện nay đa số công cụ
chỉ cho phép chú giải bằng tay, do vậy quá trình chú
giải thường đòi hỏi nhiều thời gian [6].
− Các kho chứa. Sau khi tạo ra, các ontology và phần
ngữ nghĩa phải được lưu vào kho chứa. Những kho
này thực chất là cơ sở dữ liệu cho phép lưu các mô
tả trên ngôn ngữ RDFS hay DAML+OIL và cho
phép biến đổi câu truy vấn trên những ngôn ngữ này
thành câu truy vấn SQL. Một trong những kho chứa
điển hình là Sesame [7].
− Dịch vụ suy diễn. Dịch vụ suy diễn cho phép tìm ra
giá trị cụ thể của các khái niệm hay thuộc tính
tương ứng với ontology có trong kho chứa. Một ví
dụ hệ thống suy diễn kiểu này là Ontobroker [5].
3. Các ứng dụng
Web có ngữ nghĩa cho phép tăng cường chức năng,
mức độ thông minh và tính tự động hoá của nhiều ứng
dụng hiện có. Những lĩnh vực ứng dụng đặc biệt hứa
hẹn cho Web có ngữ nghĩa là các dịch vụ Web, quản
lý tri thức và thương mại điện tử [3].
Dịch vụ Web là các chương trình và thiết bị có thể
truy cập thông qua hạ tầng WWW. Web có ngữ nghĩa
cung cấp thông tin và tri thức cần thiết cho việc tìm
kiếm, tương tác, chia sẻ và kết hợp các dịch vụ Web.
Quản lý tri thức liên quan đến việc thu thập, lưu trữ,
tìm kiếm, truy cập và cung cấp thông tin, tri thức
trong các tổ chức với mục đích tận dụng tài sản trí tuệ
của chính tổ chức đó. Công việc này đòi hỏi một số
chức năng hoàn chỉnh hơn các hệ thống quản lý văn
bản hay dữ liệu thông thường như tìm kiếm thông
minh, tự động tách thông tin từ văn bản, liên kết cơ sở
dữ liệu, từ động tổng hợp văn bản. Những chức năng
này có thể thực hiện được trên hạ tầng mà Web có
ngữ nghĩa cung cấp.
Sự phát triển mạnh của thương mại điện tử hiện nay
dẫn đến số lượng lớn các giao dịch trên mạ...
 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
D SKKN bước đầu sử dụng công cụ mạng xã hội để hỗ trợ dạy học dự án một số bài trong chương trình sinh học phổ thông Luận văn Kinh tế 0
B Xây dựng công cụ hỗ trợ quản lý quá trình phát triển dựán phần mềm, gắn kết với hệ thống phần mềm mi Luận văn Kinh tế 0
N Các công cụ, môi trường hỗ trợ xây dựng và phát triển hệ thống Luận văn Kinh tế 0
D Các công cụ hỗ trợ thiết kế website - Thảo luận thiết kế web Công nghệ thông tin 0
D Tải Bộ công cụ hỗ trợ xem nội dung bài giảng điện tử đóng gói theo chuẩn SCORM 1.2 Luận văn Sư phạm 0
V Sử dụng công cụ hỗ trợ về tài chính của nhà nước nhằm thúc đẩy đổi mới công nghệ ( Nghiên cứu trường Kinh tế quốc tế 0
P Nghiên cứu kiểm thử Webservice và xây dựng công cụ hỗ trợ Công nghệ thông tin 0
N Nghiên cứu và xây dựng công cụ hỗ trợ mô hình hóa hệ thống Triggers bằng event -B Hệ Thống thông tin quản trị 0
H Nghiên cứu kiểm thử các ứng dụng web và xây dựng công cụ hỗ trợ Công nghệ thông tin 0
T Xây dựng công cụ hỗ trợ dự báo, đánh giá nhu cầu phụ tải điện theo vùng Khoa học kỹ thuật 0

Các chủ đề có liên quan khác

Top