thutinh_online

New Member

Download miễn phí Đề tài Đọc báo điện tử và tìm kiến thông tin trên Internet





MỤC LỤC
CHƯƠNG I : GIỚI THIỆU SẢM PHẨM 1
I.1. MỞ ĐẦU .1
I.2. MỘT VÀI VÍ DỤ ỨNG DỤNG 2
CHƯƠNG II : LÝ THUYẾT CHUNG .3
II.1. PHÂN LOẠI NGUỒN THÔNG TIN .3
II.1.1. Các trang web thông tin có cấu trúc được cập nhật thường xuyên . .4
II.1.2. Các trang Web thông tin có cấu trúc không được cập nhật thường xuyên .5
II.1.3. Các trang Web thông tin có cấu trúc lỏng lẻo . 6
II.2. WEBMINING 6
II.2.1. Thu thập thông tin (Information Retrieval) .7
II.2.2. Bóc tách thông tin (Information Extraction) .7
II.2.3. Tổng hợp và tổng quát hoá dữ liệu (Generation) .8
II.2.4. Phân tích . 8
II.3. XLM . 8
CHƯƠNG III : NGHIÊN CỨU GIẢI PHÁP .10
III.1. THU THẬP THÔNG TIN .11
III.1.1.Các loại URL .11
III.1.2. Giải pháp sử lý .12
III.2. BÓC TÁCH THÔNG TIN .12
III.2.1. Quy luật dùng để bóc tách thông tin .20
III.2.2. Phương án kỹ thuật .24
III.2.3. Kênh tin và kênh tin đa thức 29
III.3. HIỆN THỰC HOÁ GIẢI PHÁP .31
III.3.1. Khả năng tương tác người và máy trong quá trình tạo kênh tin 33
III.3.2. Các chức năng khác của hệ thống 35
III.4. KHẢ NĂNG ỨNG DỤNG VÀ MỞ RỘNG . 36
CHƯƠNG IV : SO SÁNH VỚI CÁC HỆ THỐNG KHÁC 37
CHƯƠNG V : HƯỚNG DẪN SỬ DỤNG CHƯƠNG TRÌNH .38
V.1. YÊU CẦU HỆ THỐNG . .38
V.2. CHỌN KÊNH TIN . .39
V.3.LẤY THÔNG TIN VỀ CÁC BÀI BÁO .40
V.4. XEM BÁO TRỰC TUYẾN .41
V.5. XEM CÁC BÀI BÁO ĐÃ LƯU 42
V.6. CHỈNH SỬA VÀ THÊM CHÚ THÍCH VÀO BÀI BÁO .43
V.7. TÌM KIẾM BÀI BÁO .43
V.8. CẬP NHẬT CÁC KÊNH THÔNG TIN MỚI .44
CHƯƠNG VI : KẾT LUẬN 44
 
 



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

ạng EDI (Electronic Data Interchange).
Lập trình phân tán : XML là một công cụ lý tưởng để xây dựng các ứng dụng từ nhiều platform khác nhau, cho phép tích hợp giữa các server của Windows, Unix, Linux, Sun... với các hệ điều hành khác nhau trên toàn thế giới.
Cấu trúc Web site : Bản thân XML là một ngôn ngữ mang tính cấu trúc chặt chẽ và phân tán. Vì vậy, các nhà phát triển Web site có thể dễ dàng sử dụng XML trong việc tăng tính phân tầng và cấu trúc duyệt (navigations) đối với những trang Web của họ. Hơn nữa, sử dụng XML sẽ giúp cho việc lưu trữ thông tin người sử dụng, trạng thái Web site, điều khiển luồng dữ liệu trong trang Web trở nên dễ dàng hơn bao giờ hết.
XML có thể giúp chúng ta trong việc tương tác với cơ sở dữ liệu, ví dụ như việc nhận dữ liệu từ một câu truy vấn SQL hay cập nhật dữ liệu từ một bản ghi XML. Bằng việc mô tả dữ liệu theo định dạng XML, chúng ta không cần nhất thiết có một chút khái niệm nào về cấu trúc thật sự của cơ sở dữ liệu khi lưu.
Với nền tảng XML chúng ta có thể dễ dàng bổ sung tính ngữ nghĩa cho các thông tin lấy được từ các trang Web. Hệ thống của tui còn nhắm tới XML như một ngôn ngữ hữu dụng trong việc chuyển đổi sang bất cứ dạng cơ sở dữ liệu (hay cơ sở dữ liệu tri thức) nào khác. Việc dễ dàng chuyển đổi sang các cơ sở dữ liệu khác nhau một cách dễ dàng sẽ giúp đỡ người sử dụng, các doanh nghiệp tiết kiệm được rất nhiều thời gian, công sức tiền bạc và thích ứng được với môi trường Thương mại điện tử một cách dễ dàng.
Chương III
NGHIÊN CỨU GIẢI PHÁP
Giải pháp sử dụng script để tạo sinh URL tổng quát
Giải pháp sử dụng DLL để tạo sinh URL tổng quát
Bóc tách và gán ngữ nghĩa cho thông tin
Khả năng tương tác visual giữa người và máy
Hiện thực hóa giải pháp
Khả năng ứng dụng và phát triển
Như đã nói ở chương trước, để có được tri thức như mong muốn, chúng ta cần thực hiện qua bốn bước thu thập, bóc tách, tổng quát hóa và phân tích dữ liệu. Các bước này liên quan chặt chẽ đến nhau và có thể dễ dàng nhận thấy rằng, việc thực hiện không tốt một bước bất kỳ trong bốn bước kể trên đều ảnh hưởng lớn tới tri thức đầu ra. Với những nghiên cứu sẽ trình bày dưới đây, tui xin được đặc biệt chú trọng tới hai bước đầu tiên, thu thập và bóc tách thông tin mà trọng tâm là bóc tách thông tin.
III.1.THU THẬP THÔNG TIN
Việc thu thập thông tin trong hệ thống phải dựa vào những nguồn thông tin mà người sử dụng đã cung cấp cho hệ thống ấy. Sở dĩ tại sao ở đây tui không đặt trọng tâm vào việc thu thập thông tin là bởi vì hiện tại, các search engine và các nguồn tin từ Web cung cấp thông tin đã quá nhiều, ngày càng phát triển và cung cấp cho người sử dụng nhiều thông tin hơn nhưng lại trong khoảng thời gian ít hơn trước rất nhiều. cần khẳng định rằng hiện tại chúng ta không hề thiếu dữ liệu, do vậy, trong tác vụ thu thập dữ liệu, tui không thực hiện công việc đi tìm nguồn tin cho người sử dụng (vì công việc tìm nguồn tin giờ đây đã trở nên quá dễ dàng với các search engine) mà là đi tìm cho người sử dụng một cơ chế tự động thu thập dữ liệu từ các nguồn tin để chuẩn bị cho tác vụ thứ hai, tác vụ bóc tách thông tin.
III.1.1.Các loại URL
Chúng ta cũng cần phân biệt rõ các nguồn thông tin. Ở đây, nguồn thông tin của người sử dụng được định danh dưới các dạng URL như sau :
URL tĩnh. Ví dụ khi muốn xem tin Thể thao của tờ báo Z có địa chỉ là www.zzz.info, chúng ta chỉ cần truy nhập tới địa chỉ www.zzz.info/The-Thao/ trong mọi trường hợp thì có thể đọc được tin Thể thao của báo Z.
URL tĩnh được redirect đến một URL khác động tùy thuộc nhiều yếu tố (ngày, tháng, số lần người sử dụng truy cập...). Quay lại ví dụ với tờ báo Z, giả sử muốn xem Tin Thể thao, bây giờ chúng ta lại phải vào www.zzz.info và sau đó ấn vào chuyên mục Thể thao để truy cập đến phần tin Thể thao với địa chỉ www.zzz.info/24-10/The-Thao/ (với 24-10 là ngày hiện tại). Đây là ví dụ đơn giản nhất về việc có tham số trong địa chỉ URL và nếu chúng ta nắm được quy luật đối với tham số này (trong ví dụ trên thì tham số chính là ngày hiện tại - tháng hiện tại), chúng ta cũng có thể truy cập trực tiếp tới trang Web cần thiết.
Từ khóa để sinh ra URL (động). Các ví dụ đơn giản nhất trong trường hợp này là các search engine. Chúng ta đã biết rằng để tìm kiếm thông tin, chúng ta cần cung cấp cho các search engine này từ khóa. Các từ khóa ấy được biến đổi và cuối cùng được gửi cho server dưới dạng nằm trong URL. Ngoài ra, cũng còn cần xét tới chuyện xử lý sang việc người sử dụng cần lấy từ nguồn tin không phải từ một trang mà là từ nhiều trang Web (ví dụ như mặc dù search engine có thể trả lại cho chúng ta đến hàng triệu kết quả chỉ trong một trang Web, tuy vậy trong thực tế người sử dụng thông thường không muốn xem hết hàng triệu kết quả này cũng như search engine không bao giờ lại trình bày hàng triệu kết quả thu được trong một trang Web duy nhất). Như vậy, thông tin về số trang trong trường hợp này ở trên URL cũng cần nghiên cứu. Chúng ta cũng cần phân biệt được trường hợp 3 và 2 là giống nhau về mặt bản chất URL đều được mã hóa, nhưng trong trường hợp thứ 3 thông tin mã hóa được nhập từ người sử dụng, còn trong trường hợp thứ 2 thì do máy tính tự sinh ra.
III.1.2. Giải pháp xử lý
Đối với từng loại URL này, tui đã có những nghiên cứu và đưa ra các giải pháp khả thi để có thể xử lý hết tất cả các trường hợp tạo sinh URL và sau đó quy về một URL tĩnh request đến server chứa nguồn thông tin. Trừ URL tĩnh là dạng URL cơ bản nhất còn các dạng URL còn lại đều có thể được tạo sinh bởi một trong hai cách dưới đây :
Tạo/sinh URL bằng cách viết script. Đây là nhóm các URL được mã hóa đơn giản, có thể nhìn thấy ngay quy luật.
Tạo/sinh URL bằng cách viết DLL. Trong trường hợp các URL sử dụng các phương pháp mã hóa phức tạp hơn, để tiện cho người sử dụng, cách tốt nhất là người sử dụng viết một DLL hay sử dụng DLL có sẵn như một plug-ins để cung cấp cho hệ thống của tui khả năng tạo/sinh URL dựa trên việc gọi các hàm trong DLL (plug-ins) đó.
1.2.1. Tạo sinh URL bằng cách viết script
Trước hết, cần khảo sát qua những yêu cầu để có thể xây dựng nên script. Để khảo sát, chúng ta sẽ lấy các URL của các search engine trong và ngoài nước đối với chuỗi “Trí Tuệ Việt Nam” và một số tờ báo, mỗi trang lấy 3 URL và tổng quát hóa từ các ví dụ này để rút ra quy luật. (Tại báo cáo này, tui chỉ trình bầy một số ít trong các ví dụ thực tế mà tui đã khảo sát và nghiên cứu).
Google :
Phần cố định
Keyword sau khi mã hoá
Phần cố định
Phần thay đổi
Phần cố định
%2B%22Tr%C3%AD+Tu%E1%BB%87+Vi%E1%BB%87t+Nam%22&
num=50&hl=vi&lr=&ie=UTF-8&oe=UTF-8&safe=off&start=
50
100
150
sa=N
Alltheweb :
Phần cố định
Keyword sau khi mã hoá
Phần cố định
Phần thay đổi
Phần cố định
%22Tr%C3%AD+Tu%E1%BB%87+Vi%E1%BB%87t+Nam%22&
&c=web&cs=utf-8&o=
10
20
30
&l=any
PanVN :
"Tr%C3%ADTu%E1%BB%87Vi%E1%BB%87tNam"&fcid=2&any=&ww=&occ=&d=&cmdSearch=Search&advs=&pn=2&dns=&img=0
"Tr%C3%ADTu%E1%BB...
 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
G Công chúng Hà Nội với việc đọc báo in và báo điện tử Văn học 0
C Phân tích xu hướng lựa chọn báo in và báo điện tử của bạn đọc báo Tuổi Trẻ tại thành phố Hồ Chí Minh Tài liệu chưa phân loại 0
P Phát triển website báo Tiền Phong điện tử trên cơ sở nghiên cứu, khảo sát đối tượng bạn đọc Tài liệu chưa phân loại 0
A Nghiên cứu văn hóa đọc của giới trẻ ở Việt Nam đầu thế kỷ XXI trên báo in (Khảo sát trên báo Tuổi tr Văn học 0
D Cảnh báo hiểm họa tiềm ẩn của mối cánh. Nên đọc. Thị trường, Mua bán 0
C Đọc báo Tin Ngắn cho mạng Viettel miễn phí - Yêu cầu ROOT InterNet 4
S Mới đây, tôi có đọc một bài báo viết về một phụ nữ đẻ non mà không biết mình có thai Điều đó có thể Sức khỏe sinh sản 0
T Tôi đã đọc thông báo về vi phạm của công ty TNHH Kiểm toán AVA và Công ty TNHH kiểm toán AAC được đă Hỏi đáp Thuế & Kế toán 1
C Dựa theo bài tập đọc: “Báo cáo kết quả tháng thi đua noi gương chú bộ đội”, hãy báo cáo kết quả học Văn học thiếu nhi 0
M Hãy viết lại một tin thể thao em mới đọc được trên báo (hoặc nghe được, xem được trong các buổi phát Văn học thiếu nhi 0

Các chủ đề có liên quan khác

Top