trang_duy

New Member

Download miễn phí Đề tài Khai phá dữ liệu sử dụng luật kết hợp mờ





MỞ ĐẦU 4

CHƯƠNG I -TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU 5

I.1. Tổ chức và khai thác cơ sở dữ liệu truyền thống: 5

I.2. Bước phát triển mới của việc tổ chức và khai thác các CSDL. 5

I.3. Khai phá dữ liệu và quá trình phát hiện tri thức. 9

 I.4 Giới thiệu cơ sở thực tập

CHƯƠNG II -KHAI PHÁ DỮ LIỆU 13

II.1. Khai phá dữ liệu là gì 13

II.1.1. Khái niệm: 13

II.1.2. Các bước của quá trình khai phá dữ liệu: 13

II.1.3. Ví dụ minh hoạ 16

II.2. Nhiệm vụ chính của khai phá dữ liệu: 16

II.3. Các phương pháp khai phá dữ liệu: 19

II.3.1. Các thành phần của giải thuật khai phá dữ liệu: 19

II.3.2. Một số phương pháp khai phá dữ liệu phổ biến 20

II.4. Lợi thế của khai phá dữ liệu so với các phương pháp cơ bản 28

II.4.1. Học máy (Machine Learning) 28

II.4.2. Phương pháp hệ chuyên gia. 29

II.4.3. Phát hiện khoa học 29

II.4.4. Phương pháp thống kê 30

II.5. Lựa chọn phương pháp 30

II.6. Những thách thức trong ứng dụng và nghiên cứu kỹ thuật khai phá dữ liệu 31

II.6.1. Các vấn đề CSDL. 32

II.6.2. Một số vấn đề khác 34

II.7. Tình hình ứng dụng khai phá dữ liệu 35

CHƯƠNG III –LUẬT KẾT HỢP MỜ TRONG KHAI PHÁ DỮ LIỆU 36

III.1.Giới thiệu

III.2 Luật kết hợp 36

III.2.1. Bài toán xuất phát: 36

III.2.2. Mô hình hình thức: 37

III.2.3. Thuật toán: 38

III.2.4. Ký hiệu: 39

III.2.5. Thuật toán Apriori và AprioriTid: 40

III.2.6. Thuật toán AprioriTid: 43

III.2.7. Sinh ra các luật: 44

III.2.8. Ví dụ minh hoạ 45

III.3. Luật kết hợp mờ 46

III.3.1. Tập mờ (Fuzzy Set) 46

III.3.2. Quan hệ mờ 57

III.3.3. Điều khiển mờ 58

III.3.4. Giới thiệu chung về luật kết hợp mờ 62

III.3.5. Luật kết hợp mờ 64

III.3.6. Thuật toán khai thác luật kết hợp mờ 67

CHƯƠNG IV -CÀI ĐẶT 72

IV.1. Bài toán tìm luật 72

IV.2. Bài toán thực tế 72

CHƯƠNG V –KẾT LUẬN VÀ KIẾN NGHỊ 75

 

 





Để tải tài liệu này, vui lòng Trả lời bài viết, Mods sẽ gửi Link download cho bạn ngay qua hòm tin nhắn.

Ketnooi -


Ai cần tài liệu gì mà không tìm thấy ở Ketnooi, đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:


quan hệ nhân quả, có thể rất có ích trong việc làm giảm không gian tìm kiếm mô hình. Mặc dù các phương pháp này mới có ở giai đoạn đầu của việc nghiên cứu nhưng nó đã cho thấy nhiều hứa hẹn vì dạng đồ thị dễ hiểu hơn và biểu đạt được nhiều ý nghĩa hơn đối với con người.
Mô hình học quan hệ
Trong khi mẫu chiết xuất được bằng các luật suy diễn và cây quyết định gắn chặt với các mệnh đề logic (propositional logic) thì mô hình học quan hệ (còn được gọi là lập trình logic quy nạp – inductive logic programming) sử dụng ngôn ngữ mẫu theo thứ tự logic trước (first-order logic) rất linh hoạt. Mô hình này có thể dễ dàng tìm ra công thức: X = Y. Cho đến nay, hầu hết các nghiên cứu về các phương pháp đánh giá mô hình này đều theo logic trong tự nhiên.
Khai phá dữ liệu văn bản (Text Mining)
Kỹ thuật này được ứng dụng trong một loạt các công cụ phần mềm thương mại. Công cụ khai phá dữ liệu rất phù hợp với việc tìm kiếm, phân tích và phân lớp các dữ liệu văn bản không định dạng. Các lĩnh vực ứng dụng như nghiên cứu thị trường, thu thập tình báo Khai phá dữ liệu dạng văn bản đã được sử dụng để phân tích câu trả lời cho các câu hỏi mở trong khảo sát thị trường, tìm kiếm các tài liệu phức tạp.
Mạng neuron
Mạng neuron là một tiếp cận tính toán mới liên quan đến việc phát triển các cấu trúc toán học với khả năng học. Các phương pháp là kết quả của việc nghiên cứu mô hình học của hệ thống thần kinh con người. Mạng neuron có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hay không chính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác không thể phát hiện được.
Khi đề cập đến khai phá dữ liệu, người ta thường đề cập nhiều đến mạng neuron. Tuy mạng neuron có một số hạn chế gây khó khắn trong việc áp dụng và triển khai nhưng nó cũng có những ưu điểm đáng kể. Một trong số những ưu điểm phải kể đến của mạng neuron là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, có thể áp dụng được cho rất nhiều các loại bài toán khác nhau đáp ứng được các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phân nhóm, mô hình hoá, dự báo các sự kiện phụ thuộc vào thời gian
Mẫu chiết xuất bằng mạng neuron được thể hiện ở các nút đầu ra của mạng. Mạng neuron sử dụng các hàm số chứ không sử dụng các hàm biểu tượng (symbol function) để tính mức tích cực của các nút đầu ra và cập nhật các trọng số của nó. Trong mạng lan truyền ngược mà ta sẽ đề cập cụ thể ở phần sao, mỗi nút khái niệm được kết hợp với một ngưỡng, vì vậy mà trong mạng lan truyền ngược, các mẫu (hay các luật) của một khái niệm là sự kết hợp của các trọng số lớn hơn ngưỡng.
Đặc điểm của mạng neuron là không cần gia công dữ liệu nhiều trước khi bắt đầu quá trình học như các phương pháp khác. Tuy nhiên, để có thể sử dụng mạng neuron có hiệu quả cần xác định các yếu tố khi thiết kế mạng như:
- Mô hình mạng là gì ?
- Mạng cần có bao nhiêu nút ?
- Khi nào thì việc học dừng để tránh bị “học quá” ?
- .
Ngoài ra còn có rất nhiều bước quan trọng cần làm để tiền xử lý dữ liệu trước khi đưa vào mạng neuron để mạng có thể hiểu được (ví dụ như việc chuẩn bị hoá dữ liệu, đưa tất cả các tiêu chuẩn đoán về dạng số).
Mạng neuron được đóng gói với những thông tin trợ giúp của các chuyên gia đáng tin cậy và được các chuyên gia đảm bảo các mô hình này là việc tốt. Sau khi học, mạng có thể được coi là một chuyên gia trong lĩnh vực thông tin mà nó vừa được học.
Giải thuật di truyền.
Giải thuật di truyền, nói theo nghĩa rộng là mô phỏng lại hệ thống tiến hoá trong tự nhiên, chính xác hơn đó là các giải thuật chỉ ra tập các thể được hình thành, được ước lượng và biến đổi như thế nào. Ví dụ như xác định xem làm thế nào để lựa chọn các cá thể tạo giống và lựa chọn các thể nào sẽ bị loại bỏ. Giải thuật cũng mô phỏng lại yếu tố gen trong nhiễm sắc thể sinh học trên máy tính để có thể giải quyết nhiều bài toán thực tế khác nhau.
Giải thuật di truyền là một giải thuật tối ưu hoá. Nó được sử dụng rất rộng rãi trong việc tối ưu hoá các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng neuron. Sự liên hệ của nó với các giải thuật khai phá dữ liệu là ở chỗ tối ưu hoá cần thiết cho các quá trình khai phá dữ liệu. Ví dụ như trong các kỹ thuật cây quyết định, tạo luật. Như đã đề cập ở phần trước, các luật mô hình hoá dữ liệu chứa các tham số được xác định các giải thuật tham số nào tạo ra các luật tốt nhất. Và vì vậy mà giải thuật di truyền đã được sử dụng trong các công cụ khai phá dữ liệu. Kỹ thuật này sẽ được tìm hiểu sâu hơn ở chương sau.
Như vậy, nhìn vào các phương pháp giới thiệu ở trên, chúng ta thấy có nhiều các phương pháp khai phá dữ liệu. Mỗi phương pháp có những đặc điểm riêng phù hợp với một lớp các bài toán với các dạng dữ liệu và miền dữ liệu nhất định. Giả sử đối với bài toán đoán theo thời gian, trước kia người ta thường đặt nhiệm vụ cho việc khai phá các mẫu dạng này hồi quy đoán hay như các hàm phi tuyến, phương pháp dựa trên mẫu, mạng neuron đã được áp dụng để giải loại bài toán này.
Như vậy, mặc dù nhìn bề ngoài ta thấy có rất nhiều các phương pháp và ứng dụng khai phá dữ liệu nhưng cũng không có gì là lạ khi nhận thấy chúng có một số thành phần chung. Hiểu quá trình khai phá dữ liệu và suy diễn được mô hình dựa trên những thành phần này là ta đã thực hiện được nhiệm vụ của khai phá dữ liệu.
Lợi thế của khai phá dữ liệu so với các phương pháp cơ bản
Như đã phân tính ở trên, ta thấy khai phá dữ liệu không có gì mới mà hoàn toàn dựa trên các phương pháp cơ bản đã biết. Vậy khai phá dữ liệu có gì khác so với các phương pháp đó ? Và tại sao khai phá dữ liệu lại có ưu thế hơn hẳn chúng? Các phân tích sau đây sẽ giải đáp những câu hỏi này.
Học máy (Machine Learning)
Mặc dù người ta đã cố gắng cải tiến các phương pháp học máy để có thể phù hợp với mục đích khai phá dữ liệu nhưng sự khác biệt giữa cách thiết kế, các đặc điểm của CSDL đã là cho phương pháp học máy trở nên không phù hợp với mục đích này, mặc dù cho đến nay, phần lớn các phương pháp khai phá dữ liệu vẫn dựa trên nền tảng cơ sở của phương pháp học máy. Những phân tích sau đây sẽ cho thấy điều đó.
Trong quản trị CSDL, một CSDL là một tập hợp được tích hợp một cách logic của dữ liệu được lưu trong một hay nhiều tệp và được tổ chức để lưu trữ có hiệu quả, sửa đổi và lấy thông tin liên quan được dễ dàng. Ví dụ như trong CSDL quan hệ, dữ liệu được tổ chức thành các tệp hay các bảng có các bản ghi có độ dài cố định. Mỗi bản ghi là một danh sách có thứ tự các giá trị, mỗi giá trị được đặt vào một trường. Thông tin về tên trường và giá trị của trường được đặt trong một tệp riêng gọi là thư viện dữ liệu (data dictionary). Một hệ thống quản trị CSDL sẽ quản lý các thủ tục (procedures) để lấy, lưu trữ, và xử lý d...

 

Các chủ đề có liên quan khác

Top