daigai

Well-Known Member
LINK TẢI LUẬN VĂN MIỄN PHÍ CHO AE KET-NOI
nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông
MỤC LỤC
LỜI CAM ĐOAN .............................................................................................................i
LỜI CẢM ƠN ..................................................................................................................ii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT....................................................v DANH MỤC HÌNH ẢNH..............................................................................................vi DANH MỤC BẢNG BIỂU...........................................................................................vii MỞ ĐẦU..........................................................................................................................1 Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .................................................. 3
1.1. Tổng quan về khai phá dữ liệu.......................................................................3 1.1.1. Tại sao cần khai phá dữ liệu .................................................................... 3 1.1.2. Các khái niệm cơ bản .............................................................................. 3 1.1.3. Quy trình khai phá dữ liệu.......................................................................5 1.1.4. Các bài toán cơ bản trong khai phá dữ liệu..............................................6 1.1.5. Các ứng dụng của khai phá dữ liệu..........................................................7 1.1.6. Quy trình xây dựng mô hình khai phá dữ liệu..........................................8
1.2.Bài toán phân lớp và dự báo ......................................................................... 10 1.2.1. Giới thiệu bài toán.................................................................................10 1.2.2 Cácbƣớcgiảiquyếtbàitoán.................................................................11
Chƣơng 2: CÁC PHƢƠNG PHÁP PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU.... 12 2.1. Phân lớp bằng phƣơng pháp quy nạp cây quyết định ................................... 12
2.2. Phân lớp bằng phƣơng pháp Bayesian ......................................................... 15 2.3. Support Vector Machine (SVM).................................................................16 2.3.1 Phân tách tuyến tính với lề cực đại.........................................................16 2.3.1.1. Tìm kiếm siêu phẳng với lề cực đại .................................................... 21 2.3.1.2. Hàm phân loại tuyến tính với lề mềm cực đại.....................................22 2.3.1.3. Lý thuyết tối ƣu Lagrangian ............................................................... 23 2.3.1.4. Tìm kiếm siêu phẳng với lề cực đại .................................................... 25
2.3.2. Phƣơng pháp hàm nhân (kernel methods)................................................... 28 2.3.2.1 Chiều VC về khả năng phân tách của hàm tuyến tính .......................... 29 2.3.2.2 Hàm nhân và SVM phi tuyến (Kernel function and nonlinear SVMs) .30

iv
2.4. Phân lớp bằng mạng lan truyền ngƣợc (mạng Nơron)..................................33
Chƣơng 3: ỨNG DỤNG BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG VIỄN THÔNG ................................................................................................. 37
3.1. Bài toán phân lớp dữ liệu thuê bao rời mạng................................................37 3.1.1. Phát biểu bài toán..................................................................................37 3.1.2. Khái niệm thuê bao rời mạng “churn” ................................................... 38 3.1.3. Thu thập, chuẩn hóa dữ liệu .................................................................. 39 3.1.4. Lựa chọn thuộc tính...............................................................................42
3.2. Lựa chọn phƣơng pháp, công cụ..................................................................45 3.2.1. Ngôn ngữ R...........................................................................................45 3.2.2. Phƣơng pháp phân lớp...........................................................................47 3.2.3. Đánh giá hiệu năng................................................................................48
3.3. Thực nghiệm phân lớp trên ngôn ngữ R.......................................................50 3.3.1. Phân lớp dữ liệu sử dụng cây quyết định C4.5.......................................51 3.3.2. Phân lớp dữ liệu sử dụng phƣơng pháp Naive Bayes ............................. 53 3.3.3. Phân lớp dữ liệu bằng Support Vector Machines..................................55
3.3. Đánh giá kết quả..........................................................................................56
KẾT LUẬN .................................................................................................................... 58 TÀI LIỆU THAM KHẢO ............................................................................................. 60

v
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
TT
Thuật ngữ
Định nghĩa
1. KPDL
2. KDD
3. NB
4. SVM
5. NN
Khai phá dữ liệu
Knowledge Discovery and Data Mining
Naïve Bayes
Support vector machine Neural Networks

vi
DANH MỤC HÌNH ẢNH
Hình 1.1- Các bƣớc trong khai phá dữ liệu ..............................................................6
Hình 1.2 - Quy trình xây dựng mô hình khai phá dữ liệu ..........................................9
Hình 2.1 - Ví dụ về cây quyết định .........................................................................12
Hình 2.2 - Về mặt trực quan thì hàm tuyến tính siêu phẳng với lề lớn nhất trông có vẻ hợp lý ................................................................................................................19
Hình 2.3 - Ví dụ về bài toán phân loại trong không gian hai chiều..........................19 Hình 2.4 - Ba điểm trong mặt phẳng bị chia tách bởi một đƣờng thẳng có hƣớng. ..28 Hình 2.5 - Mạng nơ-ron truyền thẳng nhiều lớp......................................................34 Hình 3.1 - Mô hình quan hệ các bảng dữ liệu..........................................................40 Hình 3.2 - Các giai đoạn của mô hình đoán thuê bao rời mạng ..........................42 Hình 3.3 - Lựa chọn thuộc tính trong phân lớp dữ liệu............................................44 Hình 3.4 - Số lƣợng thuộc tính đƣợc thu thập .........................................................44 Hình 3.5 – Giao diện làm việc trên ngôn ngữ R ......................................................47 Hình 3.6 – Quy trình thực nghiệm bài toán phân lớp dữ liệu thuê bao rời mạng......50 Hình 3.7- mô hình phân lớp cây quyết định ...........................................................52 Hình 3.8 - Chi tiết nút nhánh thứ 15 trong phân lớp cây quyết định ........................52 Hình 3.9 - Kết quả phân lớp dữ liệu bằng SVM ......................................................55 Hình 3.10 – Hiệu năng các thuật toán với lớp thuê bao rời mạng ............................57

vii
DANH MỤC BẢNG BIỂU
Bảng 1 - Ma trận nhầm lẫn .....................................................................................49 Bảng 2 – Kết quả mô hình phân lớp sử dụng C 4.5 .................................................53 Bảng 3 – Độ đo hiệu năng thuật toán Cây quyết định .............................................53 Bảng 4 – Kết quả mô hình phân lớp sử dụng NB ....................................................54 Bảng 5. – Độ đo hiệu năng thuật toán NB...............................................................54 Bảng 6 – Kết quả mô hình phân lớp sử dụng SVM ................................................55 Bảng 7. – Độ đo hiệu năng thuật toán SVM............................................................56 Bảng 8. – Tổng hợp đánh giá hiệu năng các phƣơng pháp phân lớp........................56

1
MỞ ĐẦU
Sự bùng nổ và phát triển của ngành công nghệ thông tin đã làm lƣợng dữ liệu đƣợc thu thập và lƣu trữ ở các hệ thống thông tin tăng lên một cách nhanh chóng. Trƣớc tình hình đó, việc khai thác và chọn lọc những dữ liệu có ích, tiền ẩn từ lƣợng dữ liệu lớn này là rất cần thiết. Các tri thức trích lọc từ dữ liệu sẽ giúp các cơ quan, tổ chức đƣa ra những dự báo và điều hành hiệu quả.
Khai phá dữ liệu và khám phá tri thức (Data mining and Knowledge discovery) là một lĩnh vực quan trọng của ngành Công nghệ thông tin với mục tiêu là tìm kiếm các tri thức có ích, cần thiết, tiềm ẩn và chƣa đƣợc biết trƣớc trong cơ sở dữ liệu lớn. Đây là lĩnh vực đã và đang thu hút đông đảo các nhà khoa học trên thế giới và trong nƣớc tham gia nghiên cứu. Phân lớp (classification) là một trong những bài toán cơ bản trong khai phá dữ liệu với mục tiêu là phân loại các đối tƣợng vào các lớp cho trƣớc. Theo tiếp cận học máy, phân lớp là phƣơng pháp học có giám sát với hai giai đoạn: Giai đoạn 1 là xây dựng mô hình phân lớp dựa trên tập dữ liệu huấn luyện có đầu vào và đầu ra mong muốn (gọi là nhãn lớp); Giai đoạn 2 là sử dụng mô hình phân lớp để phân loại các tập dữ liệu chƣa có nhãn lớp vào các lớp đã cho và có ứng dụng trong nhiều bài toán dự báo trong thực tế. Phân lớp đƣợc sử dụng rộng rãi trong các bài toán thực tiễn nhƣ trong y tế, ngân hàng, viễn thông, kinh tế, tài chính...
Ngày nay, cùng với sự phát triển mạnh mẽ của thị trƣờng viễn thông là sự ra đời của nhiều nhà cung cấp và kinh doanh dịch vụ mạng viễn thông. Thị trƣờng viễn thông đang đi vào giai đoạn bão hòa, khách hàng có nhiều sự lựa chọn, dẫn đến họ có thể thay đổi sử dụng dịch vụ bất cứ khi nào, kết quả là số

2
lƣợng khách hàng rời mạng tăng lên một cách nhanh chóng. Hậu quả ảnh hƣởng không nhỏ tới kinh tế cũng nhƣ trong quản lý của doanh nghiệp kinh doanh dịch vụ viễn thông. Vì vậy, các nhà kinh doanh dịch vụ mạng cần có các giải pháp dữ chân khách hàng hơn là tìm kiếm khách hàng mới. Việc dự báo khách hàng có thể rời bỏ mạng trong tƣơng lai là rất cần thiết, nhằm mục đích hỗ trợ các nhà kinh doanh dịch vụ mạng có quyết sách kịp thời trong công việc giữ chân khách hàng.

3
Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1. Tổng quan về khai phá dữ liệu
1.1.1. Tại sao cần khai phá dữ liệu
Khoảng hơn một thập kỷ trở lại đây, lƣợng thông tin đƣợc lƣu trữ trên các thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, .v.v.) không ngừng tăng lên. Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ. Ngƣời ta ƣớc đoán rằng lƣợng thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó số lƣợng cũng nhƣ kích cỡ của các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng. Nói một cách hình ảnh là chúng ta đang “ngập” trong dữ liệu nhƣng lại “đói” tri thức. Câu hỏi đặt ra là liệu chúng ta có thể khai thác đƣợc gì từ những “núi” dữ liệu tƣởng chừng nhƣ “bỏ đi” ấy không? [3]
“Necessity is the mother of invention” - Data Mining ra đời nhƣ một hƣớng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên. Khá nhiều định nghĩa về Data Mining, tuy nhiên có thể tạm hiểu rằng Data Mining nhƣ là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu đƣợc tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó.
1.1.2. Các khái niệm cơ bản
Khai phá dữ liệu (datamining) [4] đƣợc định nghĩa nhƣ là một quá trình chắt lọc hay khai phá tri thức từ một lƣợng lớn dữ liệu. Một ví dụ hay đƣợc sử dụng là là việc khai thác vàng từ đá và cát, Dataming đƣợc ví nhƣ công việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trƣớc. Thuật ngữ Dataming ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lƣợng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện đƣợc dùng cũng có nghĩa tƣơng tự với từ Datamining nhƣ Knowledge Mining (khai phá tri thức), knowledge

KẾT LUẬN
Trong giai đoạn thị trƣờng viễn thông đã đi vào giai đoạn bão hòa nhƣ hiện nay, việc thuê bao rời mạng không những ảnh hƣởng đến doanh thu của nhà mạng mà còn kéo theo hàng loạt hiệu ứng khác kèm theo. Bởi vậy đoán thuê bao rời mạng để đƣa ra một chiến lƣợc kinh doanh hợp lý nhằm ngăn khách hàng rời mạng là điều vô cùng cần thiết đối với các nhà mạng.Trong luận văn này tui đã nghiên cứu, tìm hiểu và phân tích dữ liệu thuê bao di động và đạt đƣợc kết quả sau đây.
Nội dung đã đạt đƣợc
Đƣa ra cái nhìn tổng quan về thuê bao rời mạng, khái niệm thuê bao rời mạng, các hình thức rời mạng của thuê bao.
Trình bày đƣợc lý thuyết khai phá dữ liệu, các ứng dụng khai phá dữ liệu di động, bài toán phân lớp và dự báo.
Tìm hiểu các phƣơng pháp phân lớp dữ liệu.
Sau khi tìm hiểu và nghiên cứu lý thuyết phân lớp dữ liệu,thực nghiệm phân lớp dữ liệu di động sử dụng các thuật toán cây quyết định C4.5, NB, SVM và đánh giá kết quả thực nghiệm.
Hƣớng tiếp cận trong tƣơng lai
Do thời gian có hạn cùng với thuê bao trả trƣớc và thuê bao trả sau có nhiều điểm khác biệt nhƣ hình thức thanh toán, giá cƣớc sử dụng hay các thuê bao trả trƣớc có thể rời mạng một thời gian dài trƣớc khi nhà mạng nhận ra... nên trong luận văn, bài toán phân lớp dữ liệu thuê bao rời mạng mới thực hiện phân tích trên dữ liệu thuê bao trả sau mà chƣa thể áp dụng cho thuê bao trả trƣớc. Vì vậy xây dựng bài toán phân lớp thuê bao rời mạng cho thuê bao trả

59
trƣớc là hƣớng nghiên cứu tiếp theo trong tƣơng lai và tui tiếp tiếp tục nghiên cứu phát triển sản phẩn thành phần mền dự báo ứng dụng với nhiều loại dữ liệu khác nhau và để tích hợp trên các hệ thống khác.
Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
D Nghiên cứu các yếu tố tác động đến gia tăng giá trị đất đô thị tại Việt Nam Luận văn Kinh tế 0
D Các nhân tố ảnh hưởng đến giá bán căn hộ chung cư cao cấp - Nghiên cứu trên địa bàn Hà Nội Luận văn Kinh tế 0
D Nghiên cứu sự hài lòng của người dân về nhà ở tái định cư tại các dự án xây dựng lại nhà chung cư cũ Luận văn Kinh tế 0
D nghiên cứu xây dựng quy trình phân tích các hoạt chất chính trong cây hương thảo Nông Lâm Thủy sản 0
D Nâng cao hiệu quả áp dụng các phương pháp địa chất và địa vật lý hiện đại nghiên cứu địa chất môi trường vùng đồng bằng sông hồng và cửu long Khoa học Tự nhiên 0
D Các loại sai số trong nghiên cứu dịch tễ học Y dược 0
D Nghiên cứu tính đa dạng thực vật trong các hệ sinh thái rừng ở vườn quốc gia Xuân Sơn, tỉnh Phú Thọ Nông Lâm Thủy sản 0
D Nghiên cứu các nhân tố ảnh hưởng tới tính thanh khoản của cổ phiếu niêm yết trên thị trường chứng khoán Việt Nam Luận văn Kinh tế 0
D Nghiên cứu những giải pháp nhằm tối ưu hóa chi phí logistics cho các doanh nghiệp cung cấp dịch vụ logistics Luận văn Kinh tế 0
D Nghiên cứu đánh giá biến động các thông số ảnh hưởng đến chất lượng tôm sú (Penaeus Monodon) bảo quản ở 0 độ C sau thu hoạch Nông Lâm Thủy sản 0

Các chủ đề có liên quan khác

Top