daigai

Well-Known Member
Link tải luận văn miễn phí cho ae Kết nối

MỞ ĐẦU
Sự phát triển nhanh chóng của mạng Web toàn cầu đã sinh ra một khối lượng
lớn các dữ liệu dưới dạng siêu văn bản là các trang web. Trong khi dữ liệu trong
các cơ sở dữ liệu (CSDL) truyền thống thường là loại dữ liệu đồng nhất (về ngôn ngữ,
định dạng,…), còn dữ liệu Web thường không đồng nhất. Ví dụ về ngôn ngữ, dữ liệu
Web bao gồm nhiều loại ngôn ngữ khác nhau (cả ngôn ngữ diễn tả nội dung lẫn ngôn
ngữ lập trình), nhiều loại định dạng khác nhau (văn bản, HTML, PDF, hình ảnh, âm
thanh,…), nhiều loại từ vựng khác nhau (địa chỉ email, các liên kết (links), các mã
vùng (zipcode), số điện thoại). Nói cách khác, trang Web thiếu một cấu trúc thống
nhất. Chúng được coi như một thư viện kỹ thuật số rộng lớn, tuy nhiên con số khổng lồ
các tài liệu trong thư viện thì không được sắp xếp tuân theo một tiêu chuẩn đặc biệt
nào, không theo phạm trù, tiêu đề, tác giả, số trang hay nội dung... Do dữ liệu Web
không có cấu trúc và thường không đồng nhất nên việc xử lý thông tin trên web phục
vụ các yêu cầu tìm kiếm, phân tích thông tin gặp nhiều khó khăn. Yêu cần thiết phải
nghiên cứu các phương pháp hiệu quả để xử lý dữ liệu Web, chuyển từ dạng dữ liệu
không có cấu trúc, không đồng nhất thành dạng dữ liệu có cấu trúc và đồng nhất hơn.
Bước xử lý này có thể được ứng dụng cho nhiều lĩnh vực như dịch tự động và xử lý
ngôn ngữ tự nhiên.
Luận văn tập trung nghiên cứu các phương pháp trích xuất dữ liệu từ Web. Trên
cơ sở đó, thực hiện cài đặt thử nghiệm công cụ trích rút thông tin từ các trang tin tức
tiếng Việt.
Nội dung luận văn được chia thành 3 chương chính:
Chương 1 – Khái quát về khai phá dữ liệu web. Chương này giới thiệu những nội
dung cơ bản nhất, cung cấp một cái nhìn khái quát về khai phá dữ liệu Web. Đồng thời,
luận văn cũng mô tả sơ bộ các hướng khai phá, các lĩnh vực cũng như bài toán đặt ra
trong khai phá dữ liệu Web.
Chương 2 – Các kỹ thuật trích rút văn bản từ trang Web. Chương này trình bày
một cách chi tiết về trích rút thông tin. Đồng thời chương này đưa ra các hướng tiếp
cận trong bài toán trích rút thông tin. Các phương pháp trích lọc văn bản từ Web cũng
được trình bày trong chương này.
Chương 3 – Cài đặt thử nghiệm ứng dụng trích rút văn bản từ một số Website tin
tức bằng tiếng Việt. Chương này giới thiệu chương trình viết bằng ngôn ngữ PHP, cơ
sở dữ liệu MySQL dùng để trích rút văn bản từ Web. Chương trình sử dụng mã nguồn
mở Joomla.
Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
D Nghiên cứu các yếu tố tác động đến gia tăng giá trị đất đô thị tại Việt Nam Luận văn Kinh tế 0
D Các nhân tố ảnh hưởng đến giá bán căn hộ chung cư cao cấp - Nghiên cứu trên địa bàn Hà Nội Luận văn Kinh tế 0
D Nghiên cứu sự hài lòng của người dân về nhà ở tái định cư tại các dự án xây dựng lại nhà chung cư cũ Luận văn Kinh tế 0
D nghiên cứu xây dựng quy trình phân tích các hoạt chất chính trong cây hương thảo Nông Lâm Thủy sản 0
D nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông Công nghệ thông tin 0
D Nâng cao hiệu quả áp dụng các phương pháp địa chất và địa vật lý hiện đại nghiên cứu địa chất môi trường vùng đồng bằng sông hồng và cửu long Khoa học Tự nhiên 0
D Các loại sai số trong nghiên cứu dịch tễ học Y dược 0
D Nghiên cứu tính đa dạng thực vật trong các hệ sinh thái rừng ở vườn quốc gia Xuân Sơn, tỉnh Phú Thọ Nông Lâm Thủy sản 0
D Nghiên cứu các nhân tố ảnh hưởng tới tính thanh khoản của cổ phiếu niêm yết trên thị trường chứng khoán Việt Nam Luận văn Kinh tế 0
D Nghiên cứu những giải pháp nhằm tối ưu hóa chi phí logistics cho các doanh nghiệp cung cấp dịch vụ logistics Luận văn Kinh tế 0

Các chủ đề có liên quan khác

Top