kienqbth

New Member
Download miễn phí Đề tài Web mining và xây dựng thử nghiệm ứng dụng web clustering



MỤC LỤC

MỞ ĐẦU . 3
1. Mục đích thực tập chuyên ngành . 3
2. Giới thiệu về đề tài thực tập chuyên ngành . 3
3. Yêu cầu của đề tài . 4

CHƯƠNG I TỔNG QUAN VỀ WEB MINING. 5
1. Giới thiệu chung . 5
2. Web mining . 6
2.1 Tổng quan . 6
2.2 Các thành phần của web mining và các phương pháp luận . 7
a. Khám phá thông tin (IR) . 8
b. Trích rút, lựa chọn và tiền xử lý thông tin . 9
c. Tổng quát hoá . 10
d. Phân tích . 10
3. Web content mining và Web structure mining . 11
3.1 Web content mining . 11
3.2 Web structure mining . 13
4. Web text mining . 14
4.1 Text Classification . 14
4.2 Text Clustering . 14
4.3 Association analysis . 15
4.4 Trend Prediction . 15

CHƯƠNG II KHAI PHÁ DỮ LIỆU . 16
1. Tổng quan về khai phá dữ liệu . 16
1.1 Khái niệm . 16
1.2 Các bước của quá trình khai phá dữ liệu . 16
2. Nhiệm vụ chính của khai phá dữ liệu . 18
3. Các phương pháp khai phá dữ liệu . 19
4. Một số bài toán chính đối với nghiên cứu về khai phá dữ liệu . 21

CHƯƠNG III VĂN BẢN VÀ XỬ LÝ VĂN BẢN . 22
1. Khái niệm . 22
2. Phương pháp biểu diễn văn bản bằng mô hình không gian vector . 23
Mô hình Boolean . 23
Mô hình Tần suất . 23
a. Phương pháp dựa trên tần số thuật ngữ (TF – Term Frequency). 23
b. Phương pháp dựa trên nghịch đảo tần số văn bản (IDF -
Inverse Document Frequency) . 24
c. Phương pháp TF x IDF . 24
2.3 Phương pháp xử lý vector thưa . 25
3. Các bài toán xử lý văn bản không có cấu trúc . 26
Bài toán phân loại văn bản . 26
3.1.1 Giới thiệu . 26
3.1.2 Các phương pháp phân loại văn bản . 26
a. Decision Tree . 29
b. k-Nearest Neighbor . 34
3.2 Bài toán lập nhóm văn bản . 36
3.2.1 Giới thiệu . 36
3.2.2 Các phương pháp lập nhóm văn bản . 37
a. Thuật toán phân câp Bayesian. 37
b. Thuật toán ghép nhóm theo độ tương tự. 39
c. Thuật toán K-means . 40

CHƯƠNG IV XÂY DỰNG THỬ NGHIỆM ỨNG DỤNG WEB CLUSTERING. 43
1. Bài toán đặt ra . 43
2. Phương hướng giải quyết . 43
Web Crawler . 43
a. Giới thiệu . 43
b. Thứ tự Crawl các URLs . 44
c. Một số vấn đề cần chú ý cho Web Crawler . 44
d. Thuật toán sử dụng cho Web Crawler . 45
Áp dụng các thuật toán lập nhóm cho bộ dữ liệu thu được . 46
2.2.1 Các bước thực hiện để biểu diễn vector văn bản . 46
a. Tách từ . 46
b. Loại bỏ Stopwords . 47
c. Stemming . 47
d. Sắp xếp các keyword . 47
e. Xây dựng bag-of-words . 47
f. Biểu diễn từng file văn bản thành các vector . 48
2.2.2 Áp dụng các thuật toán lập nhóm . 54

TÀI LIỆU THAM KHẢO . 55
TỔNG QUAN VỀ WEB MINING
Với một khối lượng thông tin trực tuyến khổng lồ, World Wide Web đã trở thành một lĩnh vực phong phú, dồi dào cho các nghiên cứu về data mining. Có thể nói, những nghiên cứu về Web mining là sự tổng hợp của nhiều lĩnh vực nghiên cứu khác nhau như database, thu hồi thông tin (information retrieval), trí tuệ nhân tạo (AI), đặc biệt là sự góp mặt của máy học (machine learning) và xử lý ngôn ngữ tự nhiên. Tuy vậy, hãy còn có rất nhiều những nhầm lẫn, những mập mờ khi đem so sánh những kết quả nghiên cứu từ các quan điểm khác nhau.

1. Giới thiệu chung
Ngày nay, World Wide Web là một môi trường tương tác phổ dụng, được dùng để phổ cập thông tin. Những người sử dụng thông tin, khi tương tác với Web, thường gặp phải những vấn đề sau:
a. Tìm kiếm những thông tin thích hợp : Con người sử dụng trình duyệt và các dịch vụ tìm kiếm khi họ muốn có được những thông tin đặc biệt nào đó trên Web. Muốn sử dụng dịch vụ tìm kiếm, người sử dụng chỉ cần đưa ra những câu truy vấn đơn giản. Dường như ngay lập tức, kết quả tìm kiếm được hiển thị thành danh sách các trang được sắp xếp dựa trên độ tương đồng với câu truy vấn. Tuy nhiên, các công cụ tìm kiếm ngày nay vẫn còn gặp phải một số những vấn đề nổi cộm. Thứ nhất, độ chính xác thấp do sự không thích hợp của nhiều kết quả tìm kiếm. Thứ hai, khả năng triệu hồi (recall) thấp do không đủ khả năng đánh chỉ số cho tất cả các thông tin có sẵn trên Web.
b. Tạo tri thức mới từ những thông tin có sẵn trên Web : Có thể coi bài toán này là một bài toán con của bài toán trên. Trong khi bài toán trên xử lý các câu truy vấn (retrieval oriented) thì bài toán này lại xử lý dữ liệu, trong đó ta giả sử đã có sẵn một tập dữ liệu Web, cần trích ra những tri thức tiềm ẩn có ích từ tập dữ liệu này.
c. Sự cá nhân hoá thông tin : Khi tương tác với Web, mỗi người lại có một cách biểu diễn thông tin riêng, tuỳ từng trường hợp vào sở thích của họ.
d. Nghiên cứu về người tiêu dùng và những người sử dụng riêng : Đây là bài toán giải quyết cho bài toán c ở trên. Bài toán này sẽ cho biết khách hàng làm gì và muốn gì.

2. Web mining
2.1 Tổng quan
Web mining thực chất là việc sử dụng các kỹ thuật của Data mining nhằm tự động khai phá, trích dẫn thông tin từ các tài liệu và các dịch vụ Web. Hiện nay, nó đang là một lĩnh vực nghiên cứu rộng lớn, thu hút sự chú ý của nhiều lĩnh vực nghiên cứu khác nhau do sự phát triển ghê gớm của các nguồn thông tin trên Web cũng như thương mại điện tử. Web mining được phân thành những nhiệm vụ nhỏ sau:
1. Tìm kiếm các nguồn tài nguyên : truy hồi các tài liệu Web mong muốn. Đây là quá trình truy hồi dữ liệu trực tuyến hay không trực tuyến từ các nguồn văn bản sẵn có trên Web. Các nguồn thông tin này có thể là các bản tin điện tử, các bức điện tín, nội dung văn bản từ các tài liệu HTML, thu được bằng cách loại bỏ các HTML tag…
2. Lựa chọn và tiền xử lý thông tin : tự động lựa chọn và tiền xử lý các thông tin vừa nhận được từ các nguồn tài nguyên Web. Những chuyển đổi này có thể là loại bỏ các stop words, stemming… hay tiền xử lý để có những biểu diễn thích hợp, hay chuyển đổi sang mô hình quan hệ, dạng logic 1 (first order logic form).
3. Tổng quát hoá : Tự động khai phá ra các mẫu tổng quát từ các Web site riêng biệt hay từ một nhóm các Web site. Để tổng quát hoá ra các mẫu, người ta thường sử dụng các kỹ thuật machine learning hay data mining. Trong quá trình khai phá thông tin và tri thức, con người đóng một vai trò cực kỳ quan trọng bởi Web là một môi trường tương tác.
4. Phân tích hiệu lực và (hoặc) giải thích các mẫu vừa khai phá được.
Nói một cách ngắn gọn, Web mining là một kỹ thuật dùng để khai phá và phân tích thông tin có ích từ dữ liệu Web. Web có hai loại dữ liệu chính:
 Web content data
 Web structure data
Tương ứng với mỗi loại dữ liệu cần khai thác, người ta cũng chia ra các kỹ thuật Web mining thành :
 Web content mining
 Web structure mining




Web structure mining có thể được chia nhỏ thành:
 Khai phá cấu trúc ngoài (External Structure mining) : tập trung khai phá siêu liên kết giữa các trang Web.
 Khai phá cấu trúc trong (Internal Structure mining) : khai phá cấu trúc nội tại của trang Web.
 URL mining.
Web content mining được chia thành:
 Text mining: bao gồm text file, HTML, document...
 Multimedia mining.
Mặc dầu khai phá các dữ liệu multimedia có rất nhiều điều thú vị, hấp dẫn, nhưng text mining lại có một vai trò cực kỳ quan trọng, bởi lẽ hiện nay, văn bản là phương tiện thông tin chủ yếu trên Web.
CHƯƠNG II
KHAI PHÁ DỮ LIỆU
1. Tổng quan về khai phá dữ liệu
1.1. Khái niệm
Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 89. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy trong tập dữ liệu.
Năm 1989, Fayyad, Patestky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database - KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn. Trong đó, khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu (pattern) từ dữ liệu.

1.2. Các bước của quá trình khai phá dữ liệu
Các giải thuật khai phá dữ liệu thường được miêu tả như những chương trình hoạt động trực tiếp trên tệp dữ liệu. Với các phương pháp máy học và thống kê trước đây, thường thì bước đầu tiên là các giải thuật nạp toàn bộ tệp dữ liệu vào trong bộ nhớ. Khi chuyển sang các ứng dụng công nghiệp liên quan đến việc khai phá các kho dữ liệu lớn, mô hình này không thể đáp ứng được. Không chỉ bởi vì nó không thể nạp hết dữ liệu vào trong bộ nhớ mà còn vì khó có thể chiết suất dữ liệu ra các tệp đơn giản để phân tích được.

Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 

MinhHoangC

New Member
Bạn ơi có thể gửi link download tài liệu này cho mình được không?Thank bạn rất nhiều!
 

tctuvan

New Member
Re: [Free] Web mining và xây dựng thử nghiệm ứng dụng web clustering

link mới cập nhật, mời bạn xem lại bài đầu để tải nhé
 

Các chủ đề có liên quan khác

Top