quach_daity

New Member

Download miễn phí Luận văn Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt





MỤC LỤC
Phần 1 : TÌM HIỂU VẤN ĐỀ 2
Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE 2
1. Các bộ phận cấu thành hệ thống search engine 2
1.1 Bộ thu thập thông tin – Robot 2
1.2 Bộ lập chỉ mục – Index 2
1.3 Bộ tìm kiếm thông tin – Search Engine 3
2. Nguyên lý hoạt động 3
Chương 2: BỘ THU THẬP THÔNG TIN – ROBOT 5
1. Ứng dụng của Robot 5
1.1 Phân tích, thống kê – Statistical Analysis 5
1.2 Duy trì siêu liên kế - Maintenance 5
1.3 Ánh xạ địa chỉ web - Mirroring 5
1.4 Phát hiện tài nguyên – Resource Discovery 6
1.5 Kết hợp các công dụng trên- Combined uses 6
2. Robot chỉ mục – Robot Indexing 6
3. Các chiến thuật thu thập dữ liệu [II.1] 8
3.1 Chiến thuật tìm kiếm theo chiều sâu 8
3.2 Chiến thuật tìm kiếm theo chiều rộng 9
3.3 Chiến thuật tìm kiếm theo ngẫu nhiên 9
4. Những vấn đề cần lưu ý của web robot 10
4.1 Chi phí và hiểm hoạ 10
4.1.1 Qúa tải mạng và server – Network resource and server load 10
4.1.2 Sự cập nhật quá mức- Updating overhead 11
4.1.3 Những tình huống không mong đợi – Bad implementations 12
4.2 Tiêu chuẩn loại trừ robot 12
4.2.1 File robot.txt 13
4.2.2 Thẻ META dành cho robot – Robot META tag 14
4.2.3 Nhược điểm của file robot.txt 15
Chương 3: BỘ LẬP CHỈ MỤC – INDEX 18
1. Khái quát về hệ thống lập chỉ mục 18
2. Tổng quan về phương pháp lập chỉ mục ([I.1], [I.2], [II.1]) 21
2.1 Xác định mục từ quan trọng cần lập chỉ mục ([I.1]) 21
2.2 Một số hàm tính trọng số mục từ. ([I.1]) 23
2.2.1 Nghịch đảo trọng số tần số tài liệu (The Inverse Document Frequency Weight) 24
2.2.2 Độ nhiễu tín hiệu (Signal Noise): 25
2.2.3 Giá trị độ phân biệt của mục từ : 25
2.2.4 Kết hợp tần số xuất hiện mục từ và nghịch đảo tần số tài liệu 26
2.3 Lập chỉ mục tự động cho tài liệu 28
3. Lập chỉ mục cho tài liệu tiếng Việt ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11], [IV.12]) 29
3.1 Khó khăn cho việc lập chỉ mục tiếng Việt 29
3.2 Đặc điểm về từ trong tiếng Việt và việc tách từ 31
3.2.1 . Đặc điểm về từ trong tiếng Việt: 31
3.2.2 Tách từ 32
3.3 Giải quyết các vấn đề hiển thị của tiếng Việt (vấn đề chính tả) 34
3.3.1 Vấn đề bảng mã 34
3.3.2 Vấn đề dấu thanh 35
3.3.3 Vấn đề dấu tổ hợp nguyên âm 36
3.4 Giải quyết các vấn đề về từ của tiếng Việt 37
3.4.1 Luật xác định các từ láy 37
3.4.2 Luật xác định các liên từ 37
3.5 Xây dựng từ điển tiếng Việt 37
Chương 4: BỘ TÌM KIẾM THÔNG TIN – SEARCH ENGINE 40
1. Vì sao ta cần một công cụ tìm kiếm (SE) ? 40
2. Các cách tìm kiếm 40
2.1 Tìm theo từ khoá – Keyword searching 40
2.2 Những khó khăn khi tìm theo từ khoá 41
2.3 Tìm theo ngữ nghĩa – Concept-based searching 41
3. Các chiến lược tìm kiếm 42
3.1 Tìm thông tin với các thư mục chủ đề 42
3.2 Tìm thông tin với các công cụ tìm kiếm 43
3.3 Tối ưu câu truy vấn 43
3.4 Truy vấn bằng ví dụ 44
Chương 5: MỘT SỐ SEARCH ENGINE THÔNG DỤNG TRÊN THẾ GIỚI VÀ VIỆT NAM 45
1.1 Thư mục của Yahoo, Google 54
1.2 Alltheweb 55
1.3 AltaVista 55
1.4 Lycos 55
1.5 HotBot 55
2. Một số search engine thông dụng ở Việt Nam 56
2.1 Netnam [IV.12] 56
2.1.1 Phương pháp Netnam SE lập chỉ mục dữ liệu 58
2.1.2 Cú pháp tìm kiếm 59
2.1.3 Sử dụng từ khoá để lọc các tìm kiếm 61
2.2 Vinaseek ([IV.11]) 65
Phần 2 : THIẾT KẾ VÀ CÀI ĐẶT 67
Chương 6: THIẾT KẾ DỮ LIỆU 67
1. Cơ sở dữ liệu trong SQL 67
2. Hệ thống tập tin 71
Chương 7: THU THẬP THÔNG TIN 72
1. Cấu trúc dữ liệu 72
1.1 Cấu trúc UrlInfo 73
1.2 Cấu trúc StartUrlInfo 74
1.3 Cấu trúc FileRetrieval 75
1.4 Cấu trúc ProjectInfo 75
2. Xử lý của web robot 78
3. Giải quyết các vấn đề của web robot 83
3.1 Tránh sự lặp lại 83
3.2 Tránh làm qúa tải server 83
3.3 Tránh truy xuất đến các dạng tài nguyên không thích hợp 83
3.4 Tránh các lỗ đen(black holes) 84
3.5 Tránh những nơi cấm robot 84
4. Các thuật toán phân tích cấu trúc file HTML 84
4.1 Thuật toán lấy liên kết 84
4.1.1 Thuật toán ứng dụng cũ đã cài đặt 85
4.1.2 Chọn lựa của ứng dụng mới 89
4.2 Thuật toán lấy tiêu đề 89
4.3 Thuật toán lấy nội dung 90
5. Duy trì thông tin cho CSDL 91
6. Resume project 91
6.1 Nguyên tắc resume của ứng dụng cũ1 92
6.2 Cải tiến của ứng dụng mới 94
Chương 8: LẬP CHỈ MỤC 97
1. Tính trọng số của từ: 97
2. Tập tin nghịch đảo : 98
3. Từ điển chỉ mục 105
4. Quá trình stemming 110
Chương 9: TÌM KIẾM THÔNG TIN 113
Chương 10: CÁC MODULE ,PACKAGE, LỚP CHÍNH CỦA CHƯƠNG TRÌNH 115
1. Các module, package của chương trình 115
2. Các lớp đối tượng chính trong từng module 116
2.1 Module DBController 116
2.2 Module ProcessDoc 117
2.3 Module Query 118
2.4 Module SE 119
2.5 Module Webcopy 119
2.6 Module WebcopyGUI 120
Phần 3 : KẾT QUẢ, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN 122
1. Kết quả thử nghiệm 122
2. Hoạt động của chương trình 124
2.1 Giao diện quản trị 124
2.1.1 Giao diện chính của quản trị 124
2.1.2 Tạo mới project 125
2.1.3 Tạo mới một StartUrl : 128
2.1.4 Xem từ điển chỉ mục 131
2.1.5 Quản l‎ý mục từ 132
2.2 Giao diện tìm kiếm 134
3. Đánh giá 136
3.1 Ưu điểm 136
3.2 Khuyết điểm 137
4. Hướng phát triển 137
4.1 Đối với từng module : 137
4.2 Đối với toàn luận văn: 138
DANH SÁCH CÁC BẢNG 139
DANH SÁCH CÁC HÌNH VẼ 140
TÀI LIỆU THAM KHẢO 141
I. Sách, ebook: 141
II. Luận văn, luận án 141
III. Bài báo 142
IV. Website 142
 
 



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

ho những từ mà chúng cho quan trọng có thể giúp phân biệt các tài liệu khác nhau. Các từ được đề cập trong phần II chương II hay các từ lặp lại nhiều lần đều được chú ý. Một số site lập chỉ mục cho tất cả các từ có trong một trang web, một số khác chỉ chọn một số đoạn văn bản.
Các hệ thống đánh chỉ mục trên toàn văn bản (full-text indexing systems) đếm số lần xuất hiện của mỗi từ trong tài liệu ngoại trừ các từ stopword. Có những công cụ tìm kiếm còn phân biệt cả chữ hoa lẫn chữ thường.
Những khó khăn khi tìm theo từ khoá
Search engine thường gặp rắc rối với những từ đồng âm khác nghĩa (ví dụ hard cider, hard stone, a hard exam, hard drive) hay những từ có các biến thể khác nhau do có tiền tố và hậu tố như big, bigger, student, students, …. Bên cạnh đó search engine cũng không thể trả về các tài liệu chứa những từ đồng nghĩa với các từ trong câu truy vấn.
Tìm theo ngữ nghĩa – Concept-based searching
Excite đã từng nổi tiếng với chiến thuật tìm theo ngữ nghĩa nhưng giờ đây chiến thuật này không còn được sử dụng nữa. Không giống các hệ thống tìm theo từ khoá, hệ thống tìm theo ngữ nghĩa sẽ ‘đoán’ ý muốn của người dùng thông qua câu chữ. Tìm theo ngữ nghĩa hoạt động dựa trên hình thức gom nhóm tài liệu, phức tạp hơn thì dựa vào ngôn ngữ học, các thuyết về trí tuệ nhân tạo. Excite tiếp cận dựa vào phương pháp tính toán bằng cách đếm số lần xuất hiện của các từ quan trọng. Khi nhiều từ hay những cụm từ có nghĩa đặt gần nhau trong tài liệu thì Excite sẽ cho rằng chúng đang ám chỉ một chủ đề nào đó.
Ví dụ, khi từ ‘heart‘ đứng gần các từ như ‘attack‘ (cơn đau tim), ‘blood‘ (sự sống), ‘stroke‘ (sự say nắng), thì search engine sẽ xếp những trang chứa các từ này vào chủ đề y học và sức khoẻ. Ngược lại, khi từ ‘heart‘ đứng gần các từ ‘flowers’, ‘candy’, … thì search engine sẽ xếp những trang chứa các từ này vào chủ đề trữ tình.
Các chiến lược tìm kiếm
Mọi người đều nhận xét rằng web là nơi mà ta luôn có được thông tin về bất kỳ chủ đề gì. Nhưng kết quả cuối cùng thường là lãng phí thời gian cho những URL vô ích. Do đó đã đến lúc ta nghĩ đến các chiến lược tìm kiếm.
Ta khởi đầu với một đống thông tin trên một chủ đề khá rộng ? hay ta đã
hình dung được cụ thể những gì cần tìm ? Hay ta muốn tìm địa chỉ của ai đó ?
Nếu phạm vi quan tâm của ta quá rộng, ta nên xem xét các thư mục web (web directory). Nếu sau đó ta thu hẹp phạm vi cần tìm, hãy xem xét việc lựa chọn một công cụ tìm kiếm thích hợp.
Tìm thông tin với các thư mục chủ đề
Giống như tìm sách trong thư viện, cân nhắc giữa tìm theo tác giả, tiêu đề, chủ đề, ta thường chọn chủ đề để có thể bao quát một vùng thông tin rộng hơn.
Ví dụ : ta muốn tạo một trang chủ (home page) nhưng không biết cách viết một file HTML như thế nào, thậm chí chưa từng tạo một file ảnh, và cũng không biết cách đẩy một trang lên mạng. Tóm lại ta cần những thông tin cho một chủ đề khá rộng - xuất bản một trang web (web publishing).
Khi hoàn toàn xác định mình cần tìm những gì ta nên bắt đầu từ một thư mục web như thư mục của Yahoo hay Google,…vì thư mục web tập trung nhiều vào chủ đề đang được quan tâm hơn là một công cụ tìm kiếm.
Gần đây các web site thường kết hợp thư mục web và các công cụ tìm với nhau. Ví dụ nếu ta sử dụng Google để tìm thông tin và một trong những kết quả này nằm trong thư mục web của Google, Google sẽ cung cấp cho ta một liên kết dẫn vào thư mục.
Tìm thông tin với các công cụ tìm kiếm
Một số công cụ tìm kiếm gặp rắc rối với dữ liệu đầu vào của người dùng. Ví dụ : những từ chứa các ký tự đặc biệt như C++ , những từ chứa stopword như to be or not to be. Xét ví dụ khác ít rõ ràng hơn. Giả sử ta là một người rất thích tiểu thuyết trinh thám và muốn tìm những trang nói về các tác giả yêu thích. Nếu đơn giản chỉ nhập vào các từ ‘mystery‘ và ‘writer’, phần lớn các search engine sẽ trả về các liên kết dẫn đến các trang chứa một trong 2 từ trên hay cả 2. Như vậy có khả năng hàng trăm, thậm chí hàng ngàn URL không mong muốn. Tuy nhiên nếu ta nhập vào 1 cụm từ, kết quả sẽ khả quan hơn.
Tối ưu câu truy vấn
Rất nhiều search engine áp dụng các toán tử Boolean (Boolean operators) hay các bộ định vị trí (proximai locators) để tối ưu câu truy vấn. Đó là các từ khoá sau :
STT
Từ khóa
Ý nghĩa
1
AND / phép toán +
Mọi từ trong câu truy vấn phải có trong tài liệu
2
OR
Tài liệu chứa ít nhất một từ cần tìm
3
NOT / phép toán -
Tài liệu không chứa [các] từ sau từ khoá
4
NEAR
Các từ cần tìm cách nhau bao nhiêu ký tự trong tài liệu
5
FOLLOWED BY / ADJ
Các từ cần tìm phải đứng cạnh nhau trong tài liệu
Bảng ‎4.1 : Các từ khóa giúp tối ưu câu truy vấn
Truy vấn bằng ví dụ
Một điểm đáng kích lệ nữa của search engine là truy vấn bằng ví dụ. Sau khi liệt kê một loạt các tài liệu được đánh giá là thoả yêu cầu người dùng, search engine còn ‘gợi ý‘ một vài site có liên quan đến chủ đề ta đang quan tâm. Nếu có thể ta hãy theo sau các liên kết này, biết đâu sẽ có kết quả khả quan!
MỘT SỐ SEARCH ENGINE THÔNG DỤNG TRÊN THẾ GIỚI VÀ VIỆT NAM
Vài nét về các đặc trưng của một số search engine thông dụng trên thế giới
Search Engine
Google
AlltheWeb
AltaVista
Teoma
Database
google.com
alltheweb.com
altavista.com
teoma.com
Kích thước(# trang)
Khoảng 4 tỉ (1 tỉ không đánh chỉ mục trên toàn văn bản)
Khoảng 3 tỉ, chỉ mục trên toàn văn bản.
Khoảng 1 tỉ
Khoảng 1 tỉ
Đa phương tiện (multimedia)
Hỗ trợ
Hỗ trợ
Hỗ trợ
Không hỗ trợ
Toán tử
Mặc định
AND
AND
AND
AND
Loại trừ
-
-
-
-
Cụm từ
Dùng dấu “ “
Dùng dấu “ ”
Dùng dấu “ ”
Dùng dấu “ “
Rút gọn
Không hỗ trợ
Dùng ký tự * để thay thế cho các ký tự trong dấu “ “
Không hỗ trợ
Dùng ký tự *
Không hỗ trợ
Boolean
OR (chỉ dùng cho danh từ riêng )
AND, OR, ANDNOT, RANK, ()
AND, OR, ANDNOT, NEAR, ()
OR (chỉ dùng cho tên riêng)
Stop words
Thông thường bỏ qua các từ thông dụng
+ nếu muốn tìm và phải đặt trong cặp dấu “ “
Dùng dấu “ “ trong search cơ bản
Bỏ qua trong search nâng cao
Thông thường bỏ qua các từ thông dụng
+ nếu muốn tìm
Danh từ riêng
Không hỗ trợ
Không hỗ trợ
Hỗ trợ
Không hỗ trợ
Giới hạn field cần tìm
intitle:inurl:
allintitle:
allinurl: filetype:
link:site:
Trong search nâng cao : cache:info:
normal.title:
url.all:
link.all:
link.extension:
title:domain:
link:image:
text:url:host:
anchor:applet:
intitle:inurl:
site:geoloc:lang:last:
afterfate:
Các đặc tính đặc biệt
~ tìm từ đồng nghĩa
Giới hạn bởi ngôn ngữ
Nhiều kiểu file : pdf, doc,…
Caches : trang web khi đánh chỉ mục
Duyệt qua các URL
Trong tìm nâng cao :
giới hạn bởi ngày, domain, địa chỉ iP
Giới hạn bởi ngày, vị trí, ngôn ngữ
Trong tìm nâng cao : sử dụng sortby để lọc và sắp xếp kết quả.
Dùng refine để tối ưu kết quả.
Resource để có được các trang và liên kết tập trung trên chủ đề cần tìm.
Ưu điểm
Ưu điểm chính
Rất tốt với những trang có độ phổ biến cao.
Các trang tin tức gần đây
Tốt như Google.
Không có stop word.
Dùng nhiều toán tử Boolean trong tìm kiếm.
Trong tìm nâng cao hỗ trợ hi
 

Các chủ đề có liên quan khác

Top