Download Luận văn Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek

Download miễn phí Luận văn Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek





Chúng ta có thểtận dụng cấu trúc liên kết giữa các trang Web với nhau đểthu
được các thông tin có ích vềtài liệu, mặc dù bản các thông tin này không xuất hiện
trong bản thân tài liệu đó. Ví dụnhư đoạn văn bản có chứa các siêu liên kết thường mô
tảmột cách tổng quát nhất nội dung của trang Web được trỏtới bởi siêu liên kết này.
Mặc dù chúng ta không cần đọc nội dung của trang Web đích v, nhưng chúng ta có thể
biết được nội dung tổng quát của trang Web này thông qua các đoạn văn bản chứa siêu
liên kết tới vtrong tất cảcác trang Web wlà cha của trang Web v. Ví dụ: trong bài
toán tìm kiếm, đoạn văn bản chứa các siêu liên kết này đã được phân tích và khai thác
một cách triệt đểnhằm đánh giá trang Web đích.



Để tải bản DOC Đầy Đủ xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung:

ần phải khai phá Web như thế nào để nhận được
trang web chất lượng cao nhất theo tiêu chuẩn của người dùng?
Tất cả những thách thức trên đã thúc đẩy lĩnh vực khai phá dữ liệu Web (web
mining) phát triển một cách mãnh mẽ trong những năm gần đây.
Hiện nay có rất nhiều máy tìm kiếm dựa trên quá trình đánh chỉ mục các trang
Web, chúng được xây dựng và lưu trữ cơ sở dữ liệu chỉ mục ngược của tất cả các từ
khóa nhằm mục đích xác định tập hợp các trang Web có chứa các từ khóa nhất định.
Với những máy tìm kiếm như thế, một người dùng có kinh nghiệm trong quá trình tìm
kiếm có thể nhanh chóng tìm thấy các tài liệu mong muốn bằng cách cung cấp một tập
hợp các từ khóa hay cụm từ khóa. Mặc dù vậy, các máy tìm kiếm dựa trên từ khóa
vẫn còn một vài thiếu sót. Thứ nhất, một chủ đề có thể bao gồm hàng trăm ngàn tài
liệu. Do đó, một số lượng rất lớn các tài liệu có thể được trả về bởi máy tìm kiếm, tuy
nhiên phần lớn các tài liệu đó có thể liên quan rất ít hay thậm chí không liên quan đến
yêu cầu của người dùng. Thứ hai, có thể có nhiều tài liệu thực sự liên quan đến yêu
cầu tìm kiếm của người dùng nhưng lại không được trả về bởi máy tìm kiếm, bởi vì
các tài liệu đó không chứa các từ khóa tìm kiếm. Điều này cho thấy rằng, các máy tìm
kiếm hiện tại chưa đáp ứng đầy đủ cho quá trình khai phá dữ liệu Web.
2.2. Các nội dung liên quan đến khai phá dữ liệu Web
2.2.1. Khai phá nội dung trang Web
(Web Content mining)
Quá trình khai phá nội dung trang Web liên quan đến các vấn đề như khai phá
chính bản thân nội dung của trang web (text mining) mà không tính đến các siêu liên
kết, nghiên cứu và xây dựng hệ thống tìm kiếm trang web theo yêu cầu người dùng.
Ngoài ra, một công việc không kém phần quan trọng của quá trình khai phá nội dung
trang web là tính hạng các trang web trả về theo kết quả tìm kiếm.
2.2.2. Khai phá cấu trúc của hệ thống các trang web
(web structure mining)
Là quá trình khám phá ra các thông tin có ích từ cấu trúc siêu liên kết trong hệ
thống các trang web.
2.2.3. Khai phá quá trình sử dụng Web
(WebUusage Mining)
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
28
Quá trình này chủ yếu có chức năng lưu trữ và phân tích tiểu sử của người
dùng, để từ đó có khả năng hỗ trợ tốt hơn với từng loại người dùng.
2.3. Cơ sở dữ liệu Fulltext
2.3.1 Giới thiệu về cơ sở dữ liệu Fulltext
Cơ sỡ dữ liệu Fulltext là cơ sở dữ liệu phi cấu trúc mà dữ liệu chứa trong đó
bao gồm các nội dung text và các thuộc tính về tài liệu văn bản của nội dung đó. Dữ
liệu trong cơ sở dữ liệu Fulltext thường được tổ chức thành hai phần: phần cơ sở dữ
liệu thông thường quản lý thuộc tính của tài liệu, và phần tập hợp nội dung của các tài
liệu được quản lý. Chúng ta có thể hình dung một cơ sở dữ liệu Fulltext được tổ chức
như hình (2.2)[6]:
Web Mining
Web Content
Mining
Web Structure
Mining
Web Usage
Mining
Text Mining Information
Retrieval System
Hình 2.1. Các nội dung chính của quá trình khai phá dữ liệu Web
Cơ sở dữ liệu Fulltext
CSDL về thuộc tính tài liệu Tập hợp nội dung các tài liệu
Hình 2.2. Mô hình tổ chức cơ sở dữ liệu Fulltext
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
29
Trong trường hợp phổ biến, nội dung tài liệu được lưu trữ gián tiếp trong cơ sở
dữ liệu theo nghĩa hệ thống chỉ quản lý các con trỏ(địa chỉ) trỏ tới các địa chỉ chứa nội
dung tài liệu (một ví dụ dễ thấy nhất là mạng Internet, các trang Web thường lưu giữ
các địa chỉ tới nơi có lưu nội dung cụ thể). Còn các con trỏ (địa chỉ) và các thuộc tính
khác về nó được lưu trữ trực tiếp trong cơ sở dữ liệu bằng hệ quản trị cơ sở dữ liệu có
cấu trúc. Nội dung của dữ liệu Fulltext (văn bản) không có cấu trúc nội tại, được coi
như là một dãy các từ, các dấu ngăn cách. Ngữ nghĩa của văn bản được quyết định dựa
trên ngữ nghĩa của các từ mang nghĩa có trong văn bản (các từ này được gọi là từ
khóa) và cách bố trí các từ khóa đó trong văn bản. Do không có cấu trúc nên bài toán
“tổ chức theo cấu trúc hoàn toàn” các từ khóa trong văn bản là không thích hợp do tính
quá phức tạp khi thực hiện điều đó. Do đó phổ biến hiện hơn người ta sử dụng các
phương pháp biểu diễn ngữ nghĩa văn bản thông qua tập các từ khóa có trong văn bản
đó. Phần lớn tri thức của loài người được lưu trữ bằng cơ sở dữ liệu Fulltext như sách
báo, tạp chí, bài viết. Ngày nay do sự phát triển như vũ bào của công nghệ thông tin
và mạng Internet, cơ sở dữ liệu nói chung và cơ sở dữ liệu Fulltext nói riêng đang tăng
lên với một tốc độ rất nhanh, vượt ra khỏi sự kiểm soát của con người. Việc nghiên
cứu các phương pháp tổ chức, lưu trữ và biểu diễn cơ sở dữ liệu Fulltext (trang văn
bản) đã, đang ,và sẽ là một lĩnh vực có tính thời sự nhằm mục đích nâng cao khả năng
khai phá tri thức để từ đó đáp ứng được tốt hơn nhu cầu thực tiễn của con người.
2.3.2. Quá trình xử lý từ vựng
Là quá trình cần được thực hiện trước khi tiến hành đánh chỉ mục các tài liệu
hay trước quá trình chuyển tài liệu sang một mô hình biểu diễn nào đó, nhằm mục
đích thu được tất cả các từ đơn cũng như các cụm từ có mặt trong tài liệu. Ngoài ra
quá trình này cũng nhằm loại bỏ các siêu dữ liệu và các thành phần có cấu trúc hay có
chuẩn biểu diễn. Mặc dù đây là một vấn đề dễ hiểu, tuy nhiên trong thực tế chúng ta
lại gặp rất nhiều khó khăn khi tiến hành phân tích từ vựng đối với các trang văn bản có
định dạng PS, PDF,...,và một số lượng lớn các định dạng văn bản không được công bố.
Thông thường các thẻ gắn với trang HTML có thể được khai thác để ánh xạ tài liệu
vào một biểu diễn bán cấu trúc bằng việc để ý tới sự xuất hiện của các từ trong các
thành phần đặc biệt của tài liệu. Phương pháp biểu diễn này cho phép trả lời các câu
hỏi phức tạp của người dùng như “Tìm các tài liệu có chứa từ dân số trong phần đầu
và từ gia đình trong câu tiêu đề?”. Quá trình xây dựng biểu diễn bán cấu trúc từ trang
tài liệu HTML về mặt lý thuyết là rất đơn giản, vì các thẻ HTML sẽ cung cấp tất cả các
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
30
thông tin có cấu trúc. Tuy nhiên, chúng ta phải chú ý rằng mặc dù cấu trúc ngữ pháp
của HTML đã được định nghĩa một cách rõ ràng, tuy nhiên hầu hết các trình duyệt
Web đều không kiểm tra tính đúng đắn về mặt cấu trúc một cách chặt chẽ. Do đó bộ
phân tích từ vựng phải có khả năng bỏ qua các lỗi cấu trúc và phục hồi lại các thông
tin có ích. Sau khi đã thu được tất cả các từ vựng có mặt trong tài liệu, chúng ta có thể
tiến hành chắt lọc nội dung tài liệu và giảm kích thước bộ từ vựng bằng các cách sau:
™ Loại bỏ các dấu c
 

Các chủ đề có liên quan khác

Top