Chia sẻ đồ án, luận văn ngành công nghệ thông tin miễn phí
Nội quy chuyên mục: - Hiện nay có khá nhiều trang chia sẻ Tài liệu nhưng mất phí, đó là lý do ket-noi mở ra chuyên mục Tài liệu miễn phí.

- Ai có tài liệu gì hay, hãy đăng lên đây để chia sẻ với mọi người nhé! Bạn chia sẻ hôm nay, ngày mai mọi người sẽ chia sẻ với bạn!
Cách chia sẻ, Upload tài liệu trên ket-noi

- Những bạn nào tích cực chia sẻ tài liệu, sẽ được ưu tiên cung cấp tài liệu khi có yêu cầu.
Nhận download tài liệu miễn phí
By vvhiep
#967069 Link tải luận văn miễn phí cho ae Kết nối
Luận văn ThS. Công nghệ phần mềm -- Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội, 2012
Tổng quan về khai phá dữ liệu và trích chọn thuộc tính. Trình bày nội dung chính của thuật toán phân lớp sử dụng trong luận văn là thuật toán Random Forest và giải thuật di truyền. Trình bày phương pháp đề xuất và hướng giải quyết của luận văn. Trình bày quá trình thực nghiệm và đánh giá kết quả thực nghiệm

MỞ ĐẦU
 Lí do chọn đề tài
Ngày nay, trong xu hƣớng hội nhập quốc tế, thời đại thông tin bùng nổ, chúng ta
đang “ngập lụt” trong dữ liệu nhƣng lại “đói” về tri thức, cho nên vấn đề tin học hoá
và hiện đại hoá công nghệ thông tin ở nƣớc ta ngày càng trở nên cấp thiết và mang tính
thời đại. Một trong các vấn đề cấp thiết đó là làm sao phân tích và xử lý một khối
lƣợng thông tin lớn liên tục đƣợc cập nhật để đáp ứng các yêu cầu về phát triển
mọi mặt văn hoá, kinh tế, chính trị, xã hội của đất nƣớc. Vì lý do đó mà việc chọn
đƣợc các thuộc tính đặc trƣng nhằm tăng hiệu quả phân lớp đối với dữ liệu đa chiều
đang là một xu thế tất yếu nhằm giải quyết vấn đề chắt lọc ra những thông tin hữu ích
hay chắt lọc tri thức từ khối dữ liệu lớn mà chúng ta có.
Hiện nay phần lớn các thuật toán phân lớp đã phát triển chỉ có thể giải quyết đƣợc
một lƣợng số liệu giới hạn cũng nhƣ một độ phức tạp dữ liệu biết trƣớc. Trong khi đó
nhờ sự phát triển mạnh mẽ của khoa học kỹ thuật khối lƣợng dữ liệu mà chúng ta thu
thập đƣợc ngày càng phong phú và đa dạng. Hơn nữa tuỳ từng trường hợp vào từng loại dữ liệu
và ứng công cụ thể mà mỗi thuật toán có độ tốt xấu không giống nhau. Các nghiên cứu
cho thấy có rất nhiều hƣớng cải tiến các thuật toán phân lớp nhƣ áp dụng các thuật
toán kết hợp (ensemble method), các thuật toán dựa vào phƣơng pháp nhân (kernel
based method), hay áp dụng các phƣơng pháp trích chọn thuộc tính (feature
extraction/ selection method). Trong các phƣơng pháp kể trên phƣơng pháp trích chọn
thuộc tính trở nên nổi trội và có một số ƣu điểm phù hợp trong việc xử lý dữ liệu có số
lƣợng thuộc tính lớn (vài nghìn đến vài trăm nghìn thuộc tính) nhƣng đồng thời chỉ có
một số lƣợng khá nhỏ các mẫu phân tích (vài chục hay vài trăm). Trong khai phá dữ
liệu thì phƣơng pháp trích chọn đóng một vai trò quan trọng để trích chọn và chuẩn bị
dữ liệu. Hƣớng tiếp cận này làm tăng hiệu năng thu nhận tri thức trong các ngành nhƣ
tin sinh, xử lý dữ liệu web, xử lý tiếng nói, hình ảnh,...Phƣơng pháp trích chọn có một
số ƣu điểm nổi trội sau: Thứ nhất, phƣơng pháp này giúp giảm số lƣợng các thuộc tính
của dữ liệu, điều này giúp giảm thời gian tính toán của thuật toán phân lớp. Thứ hai,
phƣơng pháp trích chọn đặc trƣng cũng giúp tìm ra các thuộc tính đặc trƣng giúp cho
việc nhận dạng đối tƣợng hiệu quả hơn. Thứ ba, nó giúp loại bỏ các thuộc tính thừa và
những thuộc tính gây nhiễu có ảnh hƣởng đến kết quả đoán nhận. Vì những lí do đó,
luận văn đã chọn đề tài “Nghiên cứu, xây dựng phƣơng pháp trích chọn thuộc tính
nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều” với mong muốn tìm
hiểu và nghiên cứu về lĩnh vực này.
 Mục tiêu nghiên cứu
Mục tiêu của đề tài là nhằm nghiên cứu và tìm hiểu các phƣơng pháp trích chọn
thuộc tính - một công việc quan trọng trong việc chuẩn bị và xử lý số liệu trong khai
7
phá dữ liệu. Dựa vào đó xây dựng mô hình lựa chọn thuộc tính tối ƣu giúp giảm kích
cỡ của dữ liệu theo hƣớng chỉ giữ lại các thuộc tính đặc trƣng, loại bỏ những thuộc
tính không liên quan và những thuộc tính nhiễu nhằm tăng tốc các thuật toán phân lớp
cải thiện chất lƣợng dữ liệu và vì vậy sẽ tăng hiệu suất của việc khai phá dữ liệu.
 Đối tƣợng, phạm vi, phƣơng pháp nghiên cứu
Đối tƣợng nghiên cứu của luận văn là tìm hiểu về các phƣơng pháp lựa chọn
thuộc tính. Bài toán đƣợc phát biểu nhƣ sau: đối với bộ số liệu lớn thu đƣợc gồm hàng
trăm đến hàng nghìn bản ghi và mỗi bản ghi lại gồm hàng nghìn các thuộc tính. Các
bản ghi đƣợc phân thành các lớp cho trƣớc. Yêu cầu đặt ra là tìm các thuộc tính hữu
ích, tối ƣu nhất, loại ra các thuộc tính ít liên quan để vẫn đảm bảo việc phân lớp đúng
các bản ghi. Luận văn đi sâu nghiên cứu giải thuật di truyền [32] và thuật toán
Random Forest [8]. Từ tìm hiểu đó, luận văn đề xuất một thuật toán tựa giải thuật di
truyền với mong muốn thuật toán đề xuất lựa chọn đƣợc các thuộc tính hữu ích để
nâng cao kết quả đoán của các thuật toán phân lớp cụ thể là thuật toán Random
Forest.
 Bố cục luận văn
o Mở đầu: Phần mở đầu giới thiệu tên luận văn và trình bày lí do chọn đề
tài của luận văn cũng nhƣ xác định mục tiêu, đối tƣợng, phạm vi và
phƣơng pháp nghiên cứu của luận văn.
o Chƣơng 1:
Trình bày các vấn đề cơ sở lý thuyết của luận văn, tổng quan về khai phá
dữ liệu và trích chọn thuộc tính.
o Chƣơng 2:
Trình bày nội dung chính của thuật toán phân lớp sử dụng trong luận văn
là thuật toán Random Forest.
o Chƣơng 3:
Trình bày phƣơng pháp đề xuất và hƣớng giải quyết của luận văn.
o Chƣơng 4:
Trình bày quá trình thực nghiệm và đánh giá kết quả thực nghiệm.
o Kết luận: Phần này trình bày những vấn đề đã đƣợc giải quyết trong
luận văn, những vấn đề còn tồn tại và hƣớng giải quyết trong thời gian
tới.

Link Download bản DOC
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link tải, không dùng IDM để tải:

Bấm vào đây để đăng nhập và xem link!
Hình đại diện của thành viên
By HNgcHiu
#1007136 Bạn ơi tài liệu này link hỏng rồi, nhờ các bạn up lại với. Mình đang cần để tham khảo. Thank trang web rất bổ ích này
Hình đại diện của thành viên
By daigai
#1007137 Link mới update, mời bạn xem lại bài đầu để tải
Kết nối đề xuất:
Tìm tài liệu
Thuê xe du lịch
Advertisement