vovongtinhyeu

New Member

Download miễn phí Báo cáo thực tập tại công ty trách nhiệm hữu hạn cổ phần dịch vụ thương mại và truyền thông Thế giới trẻ





MỤC LỤC

 

CHƯƠNG 1: CƠ SỞ THỰC TẬP 2

1.1. ĐƠN VỊ CÔNG TÁC 2

1.2. VÀI NÉT VỀ ĐƠN VỊ CÔNG TÁC 2

1.3. CHỨC NĂNG VÀ NHIỆM VỤ 3

1.4. BỘ MÁY TỔ CHỨC 3

1.5. LÝ DO CHỌN ĐỀ TÀI 3

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 5

2.1. SƠ LƯỢC VỀ KHAI PHÁ TRI THỨC 5

2.1.1. Tổng quan 5

2.1.2. Các quá trình khai phá tri thức 6

1.2. KHAI PHÁ DỮ LIỆU 8

2.2.1. Chức năng của khai phá dữ liệu 9

2.2.2. Các kỹ thuật khai phá dữ liệu 10

2.2.3. Các thách thức khi khai phá dữ liệu 14

2.2.4. Đánh giá, kết luận 15

2.3. CÂY QUYẾT ĐỊNH 16

2.3.1. Khái niệm chung 16

2.3.2. Xây dựng cây quyết định 19

2.3.3. Cắt tỉa cây quyết định 19

2.3.4. Đánh giá cây quyết định 20

2.4. CƠ SỞ DỮ LIỆU QUAN HỆ 20

2.4.1. Quan hệ 20

2.4.2. Cơ sở dữ liệu quan hệ 20

2.4.3. Đại số quan hệ 21

2.4.4. Phụ thuộc hàm 21

2.4.5. Phụ thuộc hàm xấp xỉ 23

2.5. ĐỘ ĐO TƯƠNG TỰ HỖN HỢP CHO DỮ LIỆU VỚI CÁC THUỘC TÍNH SỐ, KÝ HIỆU VÀ THỨ TỰ 26

2.5.1. Khái niệm 26

2.5.2. Độ đo hỗn hợp 28

2.5.3. Thuật toán nhanh cho thuộc tính liên tục 32

2.5.4. Thuật toán nhanh cho thuộc tính có thứ tự 34

CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH 36

3.1. THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH 36

3.1.1. Thuật toán C4.5 36

3.1.2. Thuật toán xây dựng cây quyết định dựa trên phụ thuộc hàm 40

3.2. CHƯƠNG TRÌNH THỰC HIỆN 43

Giao diện chương trình thực hiện 43

TÀI LIỆU THAM KHẢO 53

 

 





Để tải tài liệu này, vui lòng Trả lời bài viết, Mods sẽ gửi Link download cho bạn ngay qua hòm tin nhắn.

Ketnooi -


Ai cần tài liệu gì mà không tìm thấy ở Ketnooi, đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:


uá trình lâu dài và phức tạp nhằm nhận biết các mẫu hay mô hình ẩn chứa trong dữ liệu dựa trên các kỹ thuật thiết kế, tổng hợp, thăm dò, phân tích để phát hiện ra các mẫu dữ liệu thích hợp từ đó hợp thức hóa các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện cho tập con mới của dữ liệu.
Ngày nay, trong hầu hết các lĩnh vực từ đời sống, kinh tế, xã hội, đến khoa học kỹ thuật, đều cần các công nghệ khai phá dữ liệu hiện đại, hiệu quả nhằm tìm ra các tri thức từ một khối lượng lớn thông tin, dữ liệu. Quá trình khai phá dữ liệu xuyên suốt qua nhiều giai đoạn từ xác định vấn đề, tiền xử lý (làm trong sáng dữ liệu, tổng hợp dữ liệu, chuyển đổi dữ liệu,), khai phá dữ liệu, đánh giá mẫu được khai phá đến trình bày tri thức được khai phá. Trong các giai đoạn này thì giai đoạn tiền xử lý dữ liệu là giai đoạn tốn thời gian nhất và giai đoạn khai phá dữ liệu là giai đoạn quan trọng nhất.
Nhiệm vụ của khai phá dữ liệu là tìm ra các mẫu cần được quan tâm phù hợp với yêu cầu của đối tượng cần khai phá từ một khối lượng lớn dữ liệu. Các mẫu sau khi khai phá là tri thức nằm tiềm ẩn trong dữ liệu và có thể được khai phá từ nhiều mô hình cơ sở dữ liệu khác nhau như: cơ sở dữ liệu quan hệ, cơ sở dữ liệu hướng đối tượng, cơ sở dữ liệu không gian, hay từ các dạng lưu trữ thông tin khác như cơ sở dữ liệu đa phương tiện, cơ sở dữ liệu thời gian thực,.
Việc khai phá dữ liệu phù hợp và hiệu quả đối với các cơ sở dữ liệu lớn vẫn đang là nhu cầu và thách thức đối với các nhà khoa học
2.3. CÂY QUYẾT ĐỊNH
2.3.1. Khái niệm chung
Phân lớp và dự đoán
Trong một cơ sở dữ liệu lớn thường có nhiều thông tin hữu ích còn bị ẩn khuất, mà những thông tin này có thể được sự đụng để ra quyết định giao dịch hay là các tiên đoán thông minh đối với nhiều lĩnh vực. Đối với những dạng thông tin như thế thường thì các phương pháp phân tích, tổng hợp và thống kê truyền thống khó có thể phát hiện ra.
Sự phân lớp và sự dự báo là hai dạng phân tích dữ liệu, chúng có thể được sử dụng để rút trích ra các mô hình mô tả các lớp dữ liệu quan trọng hay là để đoán các xu hướng dữ liệu tương lai.
Trong khi sự phân lớp (classifcation) được dừng để đoán các nhãn rõ ràng, còn sự dự báo (prediction) được sử dụng để cho ra mô hình từ các hàm giá trị liên tục. Sự dự báo có thể được xem như sự xây dựng và sử dụng một mô hình để truy cập tới lớp mẫu không có nhãn, hay để truy cập các giá trị hay vùng giá trị của một thuộc tính, đây là các giá trị được mong đợi có mặt trong mẫu đã cho.
Với cách nói này, thì sự phân lớp và sự hồi qui (classifcation and regression) là hai dạng cơ bản của các vấn đề dự đoán, trong khi sự phân lớp được sử dụng để đoán các giá trị được định danh hay các giá trị rời rạc, còn sự hồi qui thì được sử dụng để đoán các giá tri liên tục hay có thứ tự. Tuy nhiên, trong khai phá dữ liệu người ta thường chấp nhận: sự phân lớp dùng để đoán các nhãn lớp, còn sự đoán dùng để tiên đoán các giá trị liên tục (như việc sử dụng kỹ thuật hồi qui).
Trong phần này và phần 3 sau đây, chúng ta sẽ nghiên cứu kỹ thuật phân lớp dữ liệu cơ bản đó là cơ sở dữ liệu quan hệ, các tính chất của cơ sở dữ liệu quan hệ, phụ thuộc hàm xấp xỉ và phân lớp bằng cây quyết định, một số phương pháp xây dựng cây quyết định và đây cũng chính là trọng tâm của báo cáo.
Cây quyết định
Cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng.
Cây quyết định có cấu trúc hình cây và là một sự tượng trưng của một cách quyết định cho việc xác định lớp các sự kiện đã cho. Mỗi nút của cây chỉ ra một tên lớp hay một phép thử cụ thể, phép thử này chia không gian các dữ liệu tại nút đó thành các kết quả có thể đạt được của phép thử. Mỗi tập con được chia ra là không gian con của các dữ liệu được tương ứng với vấn đề con của sự phân lớp. Sự phân chia này thông qua một cây con tương ứng. Quá trình xây dựng cây quyết định có thể xem như là một chiến thuật chia để trị cho sự phân lớp đối tượng. Một cây quyết định có thể mô tả bằng các khái niệm nút và đường nối các nút trong cây.
Mỗi nút của cây quyết định có thể là:
Nút lá (leaft node) hay còn gọi là nút trả lời (answer node), nó biểu thị cho một lớp các trường hợp, nhãn của nó là tên của lớp.
Nút không phải là lá (non-leaf node) hay còn gọi là nút trong (inner node), nút này xác định một phép thử thuộc tính (attribute test), nhãn của nút này có tên của thuộc tính và sẽ có một nhánh (hay đường đi) nối nút này đến cây con (sub-tree) ứng với mỗi kết quả có thể có của phép thử. Nhãn của nhánh này chính là giá trị của thuộc tính đó. Nút không phải lá nằm trên cùng là nút gốc (root node).
Một cây quyết định sử dụng để phân lớp dữ liệu bằng cách bắt đầu đi từ nút gốc của cây và đi xuyên qua cây theo các nhánh cho tới khi gặp nút lá, khi đó ta sẽ được lớp của dữ kiện đang xét.
Ví dụ: Giả sử ta có tập huấn luyện như sau:
STT
Tuổi
Hệ số lương
Ngạch công chức
Học vị
Có chức danh
1
>40
Cao
Nghiên cứu viên chính
Tiến sĩ khoa học

2
>40
Cao
Nghiên cứu viên chính
Tiến sĩ

3
>40
Trung bình
Nghiên cứu viên
Tiến sĩ

4
>40
Trung bình
Nghiên cứu viên
Thạc sĩ
Không
5
30-40
Trung bình
Nghiên cứu viên chính
Tiến sĩ

6
30-40
Thấp
Nghiên cứu viên
Thạc sĩ
Không
7
<30
Trung bình
Nghiên cứu viên
Tiến sĩ

8
<30
Thấp
Nghiên cứu viên
Thạc sĩ
Không
9
30-40
Thấp
Nghiên cứu viên
Thạc sĩ
Không
Bảng 2.1.1.1. Tập mẫu dữ liệu huấn luyện về cán bộ, công chức
Cây quyết định được xây dựng từ tập dữ liệu chuẩn đã cho ở bảng 2.1.1.1, bảng dữ liệu này được thu thập ở Viện Khoa học và Công nghệ Việt Nam về các cán bộ, công chức, viên chức đang làm việc tại Viện. Tập dữ liệu này gồm các thuộc tính tuổi, bảo về luận án ở nước ngoài, ngạch công chức, học vị. Các thuộc tính này được gọi là các thuộc tính ứng viên hay còn gọi là các thuộc tính kiểm tra và thuộc tính chức danh là thuộc tính lớp hay thuộc tính quyết định. Cây quyết định cho trường hợp này như sau:
Bảng 2.1.1.1. Cây quyết định về việc có chức danh của cán bộ, viên chức
Tóm lại, cây quyết định thường được dùng để mô tả tri thức dưới dạng đơn giản, dễ hiểu và gần gũi với con người từ tập dữ liệu lớn, phức tạp. Nó phân chia các đối tượng dữ liệu thành các lớp, tên của các lớp là các nhãn của các nút lá, nhãn của các nút trong là tên của các thuộc tính còn nhãn của các nhãnh chính là giá trị của các thuộc tính. Việc xây dựng cây quyết định thông thường thông qua các bước xây dựng, cắt tỉa và đánh giá.
2.3.2. Xây dựng cây quyết định
Quá trình xây dựng cây quyết định được thực hiện bằng cách chia đệ quy tập dữ liệu mẫu cho tới khi mọi nút lá đều thuất nhất. Thuần nhất có nghĩa là sao cho tất cả các mẫu dữ liệu ở cùng một lớp.
Nếu các nút là là không thuần nhất, cần thiết phải được kiểm tra để tìm ra phép tách tốt nhất. Thuộc tính được lựa chọn sau kiểm tra sẽ được gán nhãn cho nút tách đó và tập dữ liệu sẽ được chia ra thêm nữa theo các giá trị của thuộc tính.
2.3.3. Cắt tỉa cây quyết định
Bước cắt tỉa cây quyết định được sử dụng để tối ưu hóa cây thu được sau khi xây dựng bao gồm: tối ưu về độ lớn của cây và tối ưu về độ chính xác của sự phân lớp bằng cách cắt tỉa các nhánh không phù hợp. Thông thường cây được sinh ra sẽ hoạt động tốt trên tập huấn luyện nhưng có thể hoạt động không chính xác đối với tập dữ liệu ẩn hay không nhìn thấy được. Các dữ liệu này là các dữ liệu bị nhiễu hay thiếu trong tập huấn luyện. Bước cắt tỉa nhằm mục tiêu cố gắng loại bỏ các nhánh bị lỗi khỏi cây và giữ lại độ chính xác của phân lớp.
2.3.4. Đánh giá cây quyết định
Tại bước này, độ chính xác của cây kết quả được xác định thông qua sử dụng một tập dữ liệu không nhìn thấy độc lập. Cây được áp dụng cho từng dữ liệu vào và nhãn của lớp đã được đoán trước so sánh với nhãn lớp thực tế. Vì thế, tiêu chuẩn để đánh giá là số các mẫu được phân lớp chính xác.
Có rất nhiều phương pháp xây dựng cây quyết định, để có cái nhìn tổng quan nhất chúng ta có thể xem xét các thuật toán này một cách kỹ càng hơn ở phần sau.
2.4. CƠ SỞ DỮ LIỆU QUAN HỆ
2.4.1. Quan hệ
Định nghĩa 1.1. (Tệp dữ liệu).
Một tệp dữ liệu là một tệp bao gồm nhiều bản ghi (record) có cùng một cấu trúc xác định loại bản ghi, đồng thời các bản ghi lại được phân chia thành các trường dữ liệu (field).
Định nghĩa 1.2. (Khái niệm quan hệ)
Cho R = {a1,...,an}là một tập hữu hạn và không rỗng các thuộc tính. Mỗi thuộc tính ai có một miền giá trị là Dai. Khi đó r là một tập các bộ {hi, ...,hm} được gọi là quan hệ trên R với hj (j=1,...,m) là một hàm:
hi:RàDai
aiÎR
sao cho hj(ai)ÎDai
Chúng ta cũng có thể biểu diễn quan hệ r thành một bảng.
2.4.2. Cơ sở dữ liệu quan hệ
Một cơ sở dữ liệu thông thường bao gồm một tập các quan hệ được gọi là cơ sở dữ liệu quan hệ. Đối với người sử dụng, một cơ sở dữ liệu quan hệ là một cơ sở dữ liệu bao gồm các bảng thay đổi theo thời gian.
Khi sử dụng một cơ sở dữ liệu quan hệ, các thao tác cơ bản ...

 

Các chủ đề có liên quan khác

Top