Jeric

New Member
Link tải luận văn miễn phí cho ae Kết Nối

Giới thiệu tổng quan các khái niệm cơ bản, xu hướng phát triển tất yếu các thách thức và các giải pháp khai phá dữ liệu; Giới thiệu các chức năng, thuật toán của công cụ khai phá dữ liệu và đánh giá cách sử dụng ODM, trên cơ sở đó xây dựng một giao diện trợ giúp người dùng khai phá dữ liệu trên Oraclerong các cơ sở dữ liệu ( CSDL ) lớn và kho dữ liệu(DL). Trên cơ sở đó, sử dụng và đánh giá công cụ hỗ trợ khai phá dữ liệu ODM tích hợp trong hệ quản trị CSDL Oracle. Hướng tới thử nghiệm khai phá DL trong các kho DL thực để thu nhận được các mô hình, quy luật có ý nghĩa. Rút kinh nghiệm việc xây dựng thiết kế CSDL tác nghiệp và kho DL sao cho tích luỹ được dữ liệu có tri thức
CHƢƠNG I. PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU......................... 7
I.1. TỔNG QUAN KHAI PHÁ DỮ LIỆU............................................................. 7
I.1.1. Khai phá dữ liệu là gì? .....................................................................7
I.1.2. Tiến trình phát triển - Tại sao?........................................................8
I.1.3. Các chức năng khai phá dữ liệu - Các loại mẫu có thể khai phá....10
I.1.4. Khai phá dữ liệu trên các loại dữ liệu nào? ....................................13
I.1.5. Quá trình phát hiện tri thức - KDD.................................................15
I.1.6. Các thách thức và giải pháp cơ bản................................................17
I.2. TIỀN XỬ LÝ DỮ LIỆU CHO KHAI PHÁ..................................................... 18
I.2.1. Các nhiệm vụ chính của tiền xử lý ..................................................19
I.2.2. Làm sạch dữ liệu ............................................................................19
I.2.3. Giảm bớt dữ liệu.............................................................................20
I.2.4. Chuyển dữ liệu thành dạng có thể khai phá được............................21
I.3. CÁC THỂ HIỆN, BIỂU DIỄN KẾT QỦA KHAI PHÁ................................... 21
I.4. KIẾN TRÚC CƠ BẢN HỆ THỐNG KHAI PHÁ DỮ LIỆU ........................... 22
CHƢƠNG II. CÁC CHỨC NĂNG CƠ BẢN KHAI PHÁ DỮ LIỆU ................... 24
II.1. KHAI PHÁ LUẬT KẾT HỢP......................................................................... 24
II.1.1. Các khái niệm luật kết hợp. ............................................................24
II.1.2. Các loại khai phá luật kết hợp ........................................................25
II.1.3. Khai phá luật kết hợp Boolean đơn chiều .......................................26
II.1.4. Cải thiện thuật toán ........................................................................28
II.1.5. Khai phá luật nhiều mức.................................................................30
II.1.6. Khai phá luật nhiều chiều...............................................................30
II.1.7. Đánh giá phân tích luật kết hợp......................................................31
II.2. PHÂN LỚP..................................................................................................... 31
II.2.1. Phân lớp.........................................................................................32
II.2.2. Phân lớp - một quá trình hai bước..................................................32
II.2.3. Xây dựng các tập dữ liệu ................................................................32
II.2.4. Phân lớp bằng học cây quyết định. .................................................33
II.2.5. Phân lớp Bayees .............................................................................37
II.2.6. Phân lớp bằng mạng Nơron............................................................39
II.3. KHAI PHÁ DỮ LIỆU VỚI GỘP NHÓM ....................................................... 44
II.3.1. Phân tích gộp nhóm........................................................................44
II.3.2. Các phương pháp phân hoạch ........................................................45
II.3.3. Các phương pháp phân cấp ............................................................46
II.3.4. Đánh giá.........................................................................................47
CHƢƠNG III. CÔNG CỤ KHAI PHÁ DỮ LIỆU ODM -
ORACLE DATA MINING....................................................... 49 III.1. CÁC THUẬT TOÁN ODM KHAI PHÁ DỮ LIỆU ........................................ 49
III.1.1. Thuật toán Adapter Bayes Network - ABN ......................................49
III.1.2. Thuật toán Naive Bayes - NB..........................................................50
III.1.3. Thuật toán Apriori..........................................................................50
III.1.4. Thuật toán dự báo biến đổi Predictor Variance ..............................50
III.1.5. Thuật toán k-means nâng cao .........................................................50
III.1.6. Thuật toán O-Cluster......................................................................51
III.1.7. Sử dụng các chức năng và lựa chọn thuật toán...............................51
III.2. CÁC BƢỚC KHAI PHÁ DỮ LIỆU................................................................ 52
III.2.1. Xây dựng mô hình...........................................................................52
III.2.2. Kiểm thử mô hình ...........................................................................52
III.2.3. Áp dụng - ghi điểm mô hình - Scoring.............................................53
III.3. CÁC THÀNH PHẦN CỦA ODM .................................................................. 53
III.3.1. Data Mining Server DMS ...............................................................53
III.3.2. Oracle9i Data Mining API..............................................................53
III.3.3. Các đối tượng trong ODM..............................................................53
III.4. THỰC HIỆN CÁC BƢỚC KHAI PHÁ DỮ LIỆU TRONG ODM.................. 55
III.4.1. Các bước chuẩn bị..........................................................................55
III.4.2. Xây dựng mô hình...........................................................................56
III.4.3. Ghi điểm dữ liệu bằng mô hình.......................................................57
CHƢƠNG IV. SỬ DỤNG ODM KHAI PHÁ DỮ LIỆU. ................................... 59
IV.1. MỘT SỐ ĐỊNH HƢỚNG KHAI PHÁ DỮ LIỆU TRONG CÁC CSDL.......... 59
IV.1.1. Hệ thống CSDL ngành Thuế ...........................................................59
IV.1.2. Hệ thống CSDL Bảo hiểm nhân thọ ................................................63
IV.2. XÂY DỰNG CÔNG CỤ HỖ TRỢ ................................................................. 68
IV.2.1. Xây dựng các tiện ích xử lý dữ liệu .................................................68
IV.2.2. Xây dựng các giao diện hỗ trợ khai phá dữ liệu..............................72
IV.3. TIẾN HÀNH MỘT SỐ THỬ NGHIỆM KHAI PHÁ DỮ LIỆU ...................... 77
IV.3.1. Mô tả các thử nghiệm .....................................................................77
IV.3.2. Phân lớp.........................................................................................79
IV.3.3. Luật kết hợp....................................................................................82
IV.3.4. Gộp nhóm.......................................................................................83
IV.3.5. Khai phá luật kết hợp trong CSDL Bảo Việt ...................................84
KẾT LUẬN .............................................................................................................. 86
TÀI LIỆU THAM KHẢO.......................................................................................... 88
PHỤ LỤC .............................................................................................................. 90 diện tích kho là bao nhiêu, hàng nào có tần xuất xuất nhập lớn… để có chiến lƣợc
sắp xếp kho, bố trí nhân công vận chuyển phù hợp. Nhƣ vậy đối với anh ta qui luật
về thời gian, thông tin về thể tích hàng là rất quan trọng. Ngƣời quản lý nợ lại có
cách nhìn hoàn toàn khác. Anh ta quan tâm tới chỉ các hoá đơn không thanh toán
ngay và các khách hàng thƣờng xuyên nợ để có biện pháp đòi nợ, nhắc nợ, tiến tới
ngừng giao dịch với một số khách hàng
Số liệu thu thập đƣợc trong ngành thuế có thể đƣợc sử dụng để phân tích trợ
giúp công tác quản lý của ngành thuế nói riêng và phân tích xu hƣớng phát triển của
nền kinh tế nói chung.
a. Phục vụ một lĩnh vực hoạt động cụ thể
Số liệu ngành thuế có thể sử dụng cho nhiều lĩnh vực hoạt động khác nhau
trong công tác định hƣớng tổ chức kinh doanh. Chẳng hạn với một ngân hàng khi
quyết định tổ chức mạng lƣới hoạt động của mình trên một phạm vi rộng, sử dụng
số liệu ngành thuế đơn vị này có thể xác định đƣợc phân bố nhu cầu tiền tệ, khả
năng huy động vốn,... nên có thể có quyết định đúng về việc nên đặt chi nhánh ở
đâu, nên tổ chức các dịch vụ gì...
b. Phục vụ phân tích ra chính sách quốc gia
- Đƣa ra các điều tiết phù hợp đối với nền kinh tế
- Chính sách ƣu đãi đối với xã hội
c. Phục vụ nhu cầu quản lý của bản thân ngành thuế
- Tránh thất thu
- Phân tích nguồn ngân sách Nhà nƣớc để đƣa ra các dự báo
3. Một số định hƣớng phân tích khai phá trên số liệu
Việc khai phá dữ liệu cho phép tìm ra các tri thức tiềm ẩn trong số liệu thực chất là
bƣớc tiếp theo của những gì mà datawarehouse đã làm việc, công việc phân tích ở
một mức cao hơn, hoàn thiện hơn và có nhiều yếu tố tự động hóa hơn.
Trong khuôn khổ luận văn chúng tui xin đề xuất một số hƣớng phân tích dữ
liệu khá điển hình có thể thu đƣợc từ số liệu ngành thuế. Đó là các phân tích phân loại theo các chỉ tiêu thống kê, các phân tích theo
kịch bản (điều gì sẽ xảy ra nếu…) và phát hiện tri thức ngầm định trong dữ liệu.
Các dạng thông tin phân tích có thể liệt kê nhƣ sau:
Phân loại các Đối tƣợng nộp thuế theo các loại hình, mức độ kinh doanh…
Phân lớp các khách hàng nợ thuế, dự báo các đối tƣợng nộp thuế nợ thuế,
trốn thuế,
Phát hiện các nghi vấn về doanh thu, tờ khai, thuế.
Phát hiện các sai phạm nghiêm trọng nhƣ gian lận thuế, sai phạm hoàn
thuế: cần có sự tích hợp với nhiều CSDL khác nhƣ số liệu kho bạc, kiểm tra
chéo hoá đơn.. để tìm ra các bất thƣờng hay khối lƣợng tiền rút ra khi hoàn
thuế quá lớn đối với các nhóm ngƣời, theo các chu kỳ đặc biệt nào đó…
Hỗ trợ xây dựng chính sách thuế đảm bảo đúng đắn và chặt chẽ.
IV.1.2. Hệ thống CSDL Bảo hiểm nhân thọ
Bảo hiểm nhân thọ ra đời là đòi hỏi tất yếu cuả cuộc sống để tạo lập và gìn giữ
cuộc sống bình an và hạnh phúc cho con ngƣời. Dịch vụ bảo hiểm nhân thọ đƣợc
thực hiện thông qua quỹ dự trữ bảo hiểm tập hợp từ sự đóng góp, tham gia bảo hiểm
của các cá nhân và tổ chức trong xã hội để bồi thƣờng cho những rủi ro không may
xảy ra với các đối tƣợng đƣợc bảo hiểm.
Các hoạt động chủ yếu là:
Thực hiện các hợp đồng bảo hiểm với khách hàng (là các cá nhân hay tổ
chức trong xã hội), quản lý thu phí bảo hiểm của các hợp đồng và xem xét
bồi thƣờng trong trƣờng hợp rủi ro.
Nghiên cứu phát hành các sản phẩm bảo hiểm mới dựa trên các thống kê về
hoạt động bảo hiểm đáp ứng nhu cầu bảo hiểm ngày càng tăng, mở rộng
khả năng kinh doanh trong lĩnh vực bảo hiểm.
Mặc dù mạng lƣới BHNT đã có mặt tại hầu hết các tỉnh thành Việt nam, nhƣng số
lƣợng khách hàng mua BHNT vẫn còn chiếm tỷ trọng rất ít so với dân số của cả
nƣớc. Tiềm năng mở rộng, khai thác khách hàng còn rất dồi dào vì vậy cần có

Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 

sonsian

New Member
Re: [Free] Một số thử nghiệm khai phá dữ liệu trong cơ sở dữ liệu ORACLE

Mod ơi link download k được. Bạn upload lại giúp nhé. Thank mod
 

daigai

Well-Known Member
Re: [Free] Một số thử nghiệm khai phá dữ liệu trong cơ sở dữ liệu ORACLE

Link mới update, mời bạn xem lại bài đầu
 
Các chủ đề có liên quan khác

Các chủ đề có liên quan khác

Top