daigai

Well-Known Member
Link tải luận văn miễn phí cho ae Kết nối

MUC LUC
• •
Danh mục các bảng
Danh sách hình vẽ
MỞ ĐẦU 7
1.1. Sự cần thiết lựa chọn đề tài 7
1.2. Mục tiêu đề tài 8
1.3. Đối tượng và phạm vi nghiên cứu 8
1.4. Phương pháp nghiên cứu 8
1.5. Cấu trúc của luận văn 9
Chương 1. TỔNG QUAN VỀ TRÍCH CHỌN sự KIỆN 10
1.1. Tổng quan về trích chọn thông tin 10
1.1.1. Bài toán trích chọn thông tin 10
1.1.2. Cơ hội và thách thức cho bài toán trích chọn thông tin 11
1.2. Tổng quan về trích chọn sự kiện 15
1.2.1. Định nghĩa sự kiện 17
1.2.2. Trích chọn sự kiện 19
1.3. Khó khăn và thách thức của trích chọn sự kiện 20
1.4. Một số phương pháp tiếp cận cho bài toán trích chọn sự kiện 21
1.4.1. Phương pháp tiếp cận dựa trên tập luật 21
1.4.2. Phương pháp tiếp cận dựa trên học máy 24
1.4.3. Phương pháp kết hợp luật và học máy 25
1.4.4. Một số nhận xét 26
1.5. Kết luận chương 28
Chương 2. BÀI TOÁN TRÍCH CHỌN sự KIỆN DỊCH BỆNH TRONG VĂN BẢN
TIẾNG VỆT 29
2.1. Tổng quan bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt 29
2.1.1. Tầm quan trọng và ý nghĩa của trích chọn sự kiện dịch bệnh 29
2.1.2. Các đặc tính của sự kiện dịch bệnh 32
2.1.3. Phát biểu bài toán 33

4
2.2. Mô hình trích chọn sự kiện dịch bệnh 34
2.2.1. Phương pháp sử dụng 34
2.2.2. Mô hình phát hiện và trích chọn sự kiện dịch bệnh 35
2.3. Phương pháp giải quyết bài toán phát hiện sự kiện dịch bệnh 37
2.3.1. Phát biểu bài toán 37
2.3.2. Xây dựng tập luật 38
2.3.3. Xây dựng mô hình phân lớp 40
2.4. Phương pháp giải quyết bài toán trích chọn sự kiện dịch bệnh 41
2.4.1. Phát biểu bài toán 41
2.4.2. Trích chọn thời gian 42
2.4.3. Trích chọn tên bệnh 43
2.4.4. Trích chọn địa điểm 45
2.5. Tổng kết chương 47
Chương 3. THỬNGHỆM BÀI TOÁN TRÍCH CHỌN sự KIỆN DỊCH BỆNH TRÊN MỘT SỐ TRANG THÔNG TIN ĐỆN TỬ. 48
3.1. Bài toán 48
3.2. Môi trường và các công cụ thử nghiệm 49
3.3. Thử nghiệm quy trình trích chọn dịch 52
3.3.1. Thu thập dữ liệu (Web Crawler) 52
3.3.2. Phát hiện sự kiện dịch bệnh 53
3.3.3. Trích chọn sự kiện dịch bệnh 53
3.4. Thống kê báo cáo 57
3.5. Tổng kết chương 60
KẾT LUẬN. 61
Tài liệu tham khảo 62

5
DANH MỤC CÁC BẢNG
Bảng 1.1. Thống kê trên dữ liệu Twitter 12
Bảng 2.1. Danh sách các từ/cụm từ thường xuyên 39
Bảng 3.1. Cấu hình thử nghiệm 48
Bảng 3.2. Công cụ phần mềm có sẵn 49
Bảng 3.3. Kết quả lọc các bài viết có chứa thông tin về các dịch bệnh 53
Bảng 3.4. Kết quả trích chọn 55
Bảng 3.5. Thống kê theo địa điểm 57
Bảng 3.6. Thống kê theo thời gian 58
Bảng 3.7 Thống kê theo tên dịch bệnh 59
Ket-noi.com kho tài liệu miễn phí

6
DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Sự tăng trưởng dữ liệu từ năm 2004 đến năm 2020 12 Hình 1.2. Dữ liêu trên Internet trong 60 giây 13
Hình 1.2. Các bước trong quá trình khám phá tri thức trong cơ sở dữ liệu... 14
Hình 2.1. Quá trình phát hiện và trích chọn sự kiện 36
Hình 2.2. Thành phần phát hiện sự kiện 37
Hình 2.3. Thành phần trích chọn sự kiện 41
Hình 2.4. Biểu diễn của cây phân cấp địa điểm 46 Hình 3.1. Giao diện phần mềm crawler thu thập dữ liệu 52
Hình 3.2. Kết quả thử nghiệm trích chọn sự kiện dịch bệnh 56
Hình 3.3. Biểu đồ thống kê theo địa điểm 57 Hình 3.4. Biểu đồ thống kê theo thời gian 58 Hình 3.5. Biều đồ thống kê theo tên dịch bệnh 59

7
MỞ ĐẦU
1.1. Sư cần thiết lưa chon đề tài
• • •
Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và Internet vào nhiều lĩnh vực khác nhau của đời sống xã hội trong mấy năm gàn đây đã tạo ra nhiều cơ sở dữ liệu khổng lồ. Để khai thác hiệu quả nguồn thông tin trên các cơ sở dữ liệu lớn đó nhằm mục đích dự báo, hỗ trợ ra quyết định, bên cạnh các phương pháp khai thác thông tin truyền thống, các nhà nghiên cứu đã sử dụng công cụ máy tính điện tử để phát triển các phương pháp, kỹ thuật mới hỗ trợ tiến trình khám phá, phân tích, tổng hợp thông tin. Lĩnh vực này được gọi là khai phá dữ liệu và khám phá tri thức (Data Mining and Knowledge Discovery) mà hạt nhân là các kỹ thuật phân tích dữ liệu (Data Analysis), trong đó các phương pháp trích chọn thông tin, trích chọn sự kiện là mảng nghiên cứu quan trọng và có ứng dụng rộng rãi trong thực tiễn.
Trích chọn sự kiện (Event Extraction - EE) là bài toán con trong trích chọn thông tin (Iníòrmation Extraction - IE) và là một lĩnh vực nghiên cứu quan trọng trong khai phá dữ liệu và học máy, có nhiều ứng dụng quan trọng trong thực tiễn. Kết quả của quá trinh trích chọn là đầu vào cho các kỹ thuật khai phá dữ liệu và học máy nhằm trích lọc ra các tri thức, quy luật có ích trong dữ liệu, phục vụ công tác điều hành, dự báo, ra quyết định.
Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan tâm từ các nhà khoa học trong lĩnh vực khai phá dữ liệu nói chung và trích chọn thông tin nói riêng. Trích chọn sự kiện được đề xuất lần đàu tiên tại hội thảo Message Understanding Conference năm 1987 [19]. Trong hội nghị này, một sự kiện được định nghĩa như sau: một sự kiện bắt buộc phải có tác nhân, thời gian xảy ra sự kiện, địa điểm và tác động tới môi trường xung quanh. Bên cạnh đó, chương trình Automatic Content Extraction (ACE) đưa ra định nghĩa: Sự kiện là một hành động được tạo ra bởi người tham gia và được chia thành

8
tám loại: Cuộc sống, sự di chuyển, sự chuyển, kinh doanh, xung đột, liên hệ, con người và luật pháp. Còn theo định nghĩa của Allen và cộng sự [1], một sự kiện bao gồm bốn thuộc tính: cách, sự phân cực, mức độ, và thời điểm.
Đe có thể tìm hiểu sâu hơn về mô hình và phương pháp giải quyết bài toán trích chọn sự kiện dịch bệnh, em đã chọn đề tài “Nghiên cứu các phương pháp trích chọn sự kiện và ứng dụng vào bài toán trích chọn sự kiện dịch bệnh” để làm luận văn thạc sĩ của mình.
1.2. Muc tiêu đề tài
Tìm hiểu tổng quan về bài toán trích chọn sự kiện và các phương pháp giải quyết bài toán trích chọn sự kiện, trên cơ sở đó xây dựng mô hình giải quyết bài toán trích chọn sự kiện dịch bệnh từ các dữ liệu văn bản tiếng Việt. Cài đặt và thử nghiệm mô hình trích chọn sự kiện dịch bệnh từ một số trang thông tin điện tử tiếng Việt ừên mạng Internet.
1.3. Đổi tượng và phạm vỉ nghiên cứu
Đối tượng nghiên cứu của đề tài là các phương pháp, công cụ giải quyết bài toán trích chọn sự kiện trong văn bản tiếng Việt và các trang thông tin điện tử tiếng Việt trên mạng Internet về dịch bệnh.
Phạm vi nghiên cứu của đề tài là bài toán trích chọn sự kiện về các dịch bệnh trên một số trang thôn tin điện tử tiếng Việt (website) trên mạng Internet.
1.4. Phương pháp nghiền cứu
Phương pháp nghiên cứu của đề tài là nghiên cứu lý thuyết và nghiên cứu thực nghiệm.
về nghiên cứu lý thuyết, đề tài đã tổng họp các kết quả nghiên cứu về các phương pháp trích chọn sự kiện tò văn bản tiếng Việt phục vụ phân tích, thống kê, báo cáo, ra quyết định, về nghiên cứu thực nghiệm, đề tài xây dựng và cài đặt, thử nghiệm mô hình trích chọn sự kiện dịch bệnh từ một số ừang thông tin điện tử (website) bằng tiếng Việt trên mạng Intemet.

9
1.5. Cấu trúc của luận văn
Cấu trúc luận văn gồm: mở đầu, ba chương chính, kết luận và tài liệu tham khảo.
Phần mở đầu\ Lý do chọn đề tài và bố cục luận văn
Chương 1: Giới thiệu tổng quan bài toán trích chọn sự kiện và một số phương pháp tiếp cận giải quyết bài toán trích chọn sự kiện.
Chương 2\ Trình bày bài toán trích chọn sự kiện dịch bệnh từ dữ liệu văn bản tiếng Việt, bao gồm phát biểu bài toán, phương pháp đề xuất, mô hình phát hiện và trích chọn sự kiện, ý nghĩa khoa học và thực tiễn của bài toán trích chọn sự kiện dịch bệnh.
Chương 3: Trình bày kết quả thực nghiệm mô hình trích chọn sự kiện dịch bệnh trên một số trang thông tin điện tử (website) bằng tiếng Việt trên mạng Internet.
Phần kết luận: Tóm tắt các kết quả đạt được và hướng phát triển tiếp của đề tài.

10
Chương 1
TỔNG QUAN VỀ TRÍCH CHỌN sự KIỆN
Chương này giới thiệu tổng quan về trích chọn sự kiện và các phương pháp tiếp cận giải quyết bài toán trích chọn sự kiện.
1.1. Tổng quan về trích chọn thông tin
1.1.1. Bài toán trích chọn thông tin
Trích chọn thông tin là một lĩnh vực quan trọng trong khai phá dữ liệu văn bản, nó được định nghĩa như sau: Trích chọn thông tin (ỈE - Information Extractiorì) là quá trình lấy thông tin từ các nguồn ở những định dạng không đồng nhất thậm chí không có định dạng cụ thể khi nó ở dạng văn bản diễn đạt bằng ngôn ngữ tự nhiên, sau đó chuyển thành một dạng đồng nhất. Dữ liệu sau khi trích chọn được sử dụng, trình bày trực tiếp cho người dùng, lưu vào cơ sở dữ liệu để xử lý sau đó hay sử dụng cho những hệ thống tìm kiếm thông tin như một dữ liệu đã qua bước tiền xử lý.
Trích chọn thông tin (IE) có thể được coi nằm giữa thu hồi thông tin (Iníòrmation Retrieval - IR) và hiểu văn bản (Text Understanding) [3]. Không giống với thu hồi thông tin chỉ tập trung vào các mẩu thông tin có liên quan ừong văn bản, trích xuất thông tin còn quan tâm tới các sự kiện có liên quan trong văn bản và biểu diễn chúng dưới dạng các khuôn mẫu (template). Bên cạnh đó, khác với hiểu văn bản chỉ tập trung trên một phàn nhỏ của văn bản (câu, đoạn văn), trích xuất thông tin quan tâm tới toàn bộ nội dung văn bản.
Theo Peshkin và Pfeffer, trích chọn thông tin có thể được định nghĩa như là một công việc điền thông tin vào các mẫu từ các dữ liệu không biết trước ừong miền được định nghĩa trước. Mục tiêu của trích chọn thông tin là lấy tò các văn bản các thông tin nổi bật của các sự kiện, thực thể, hay các mối quan hệ. Như vậy, có thể coi trích chọn thông tin là một kỹ nghệ lấy và biểu diễn tri
Ket-noi.com kho tài liệu miễn phí

11
thức thành các thông tin có định dạng và hữu ích từ nguồn dữ liệu vô tận trên Internet.
Vậy bài toán trích chọn thông tin có thể được phát biểu như sau:
1) Đầu vào: dữ liệu bất kỳ.
2) Đầu raễ. thông tin hữu ích (tri thức) có cấu trúc.
Dữ liệu đầu vào cho bài toán trích chọn thông tin rất phong phú và đa dạng. Dữ liệu có thể là có cấu trúc (structured), bán cấu trúc (semi-structured), không có cấu trúc (unstructured), hay có thể là dữ liệu không gian (partial), dữ liệu thời gian (temporal). Với bất kỳ dạng dữ liệu nào, nhiệm vụ của trích chọn thông tin cũng phải đưa ra các kết quả có cấu trúc ngắn và ý nghĩa.
1.1.2. Cơ hội và thách thức cho bài toán trích chọn thông tin
Trong tài liệu số [26], John chỉ ra rằng chúng ta đang dư thừa dữ liệu tuy nhiên lại cùng kiệt nàn về tri thức “We are drowning in data, but starvỉng for knowledge!".
Theo thống kê của NOAA (National Oceanic and Atmospheric Administration, USA) tính tới thời điểm tháng 04-2012, dữ liệu người dùng tạo ra trên Internet khoảng gần 60.000 Terabytes và sẽ tăng lên khoảng 160.000 Terabytes ừong vòng 8 năm tới. Sự tăng trưởng được minh họa trong hình 1.1 ( mgmt/ỵ

Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
D Nghiên cứu các yếu tố tác động đến gia tăng giá trị đất đô thị tại Việt Nam Luận văn Kinh tế 0
D Các nhân tố ảnh hưởng đến giá bán căn hộ chung cư cao cấp - Nghiên cứu trên địa bàn Hà Nội Luận văn Kinh tế 0
D Nghiên cứu sự hài lòng của người dân về nhà ở tái định cư tại các dự án xây dựng lại nhà chung cư cũ Luận văn Kinh tế 0
D nghiên cứu xây dựng quy trình phân tích các hoạt chất chính trong cây hương thảo Nông Lâm Thủy sản 0
D nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông Công nghệ thông tin 0
D Nâng cao hiệu quả áp dụng các phương pháp địa chất và địa vật lý hiện đại nghiên cứu địa chất môi trường vùng đồng bằng sông hồng và cửu long Khoa học Tự nhiên 0
D Các loại sai số trong nghiên cứu dịch tễ học Y dược 0
D Nghiên cứu tính đa dạng thực vật trong các hệ sinh thái rừng ở vườn quốc gia Xuân Sơn, tỉnh Phú Thọ Nông Lâm Thủy sản 0
D Nghiên cứu các nhân tố ảnh hưởng tới tính thanh khoản của cổ phiếu niêm yết trên thị trường chứng khoán Việt Nam Luận văn Kinh tế 0
D Nghiên cứu những giải pháp nhằm tối ưu hóa chi phí logistics cho các doanh nghiệp cung cấp dịch vụ logistics Luận văn Kinh tế 0

Các chủ đề có liên quan khác

Top