Tìm hiểu Hadoop, MapReduce, và các bài toán ứng dụng

missu_mrhieu · 21/3/14

Link tải luận văn miễn phí cho ae

Phần I. Giới thiệu chung . 5
1.1. Hadoop l{ gì? . 5
1.2. MapReduce l{ gì? . 5
Phần II. Cài đặt Hadoop . 7
1. Cài đặt máy ảo Ubuntu 10.10 (32 bit) trên VMware . 7
1. Cài đặt Vmware tools cho Ubuntu . 7
2. Cài openSSH cho ubuntu . 7
3. Cài java: . 7
4. Thêm user hadoop vào nhóm hadoop . 8
5. Cấu hình ssh . 9
6. Vô hiệu hóa IPv6 . 11
7. Download và cài đặt hadoop . 12
a. Download Hadoop 0.20.2 và lưu vào thư mục /usr/local/ . 12
b. Cấu hình . 12
c. Định dạng các tên node . 13
d. Chạy hadoop trên cụm một node . 13
8. Chạy một ví dụ MapReduce . 14
9. Cài đặt và sử dụng Hadoop trên Eclipse . 17
Phần III. Thành phần của Hadoop . 20
1. Một số thuật ngữ. . 20
2. C|c trình nền của Hadoop . 21
2.1. NameNode . 21
2.2. DataNode . 21
2.3. Secondary NameNode . 22
2.4. JobTracker . 22
2.5. TaskTracker . 23
Phần IV. Lập trình MapReduce cơ bản . 25
1. Tổng quan một chương trình MapReduce . 25
2. Các loại dữ liệu mà Hadoop hỗ trợ . 26
2.1. Mapper . 27
2.2. Reducer . 28
2.3. Partitioner – chuyển hướng đầu ra từ Mapper . 29
Phần V. Sơ lược về các thuật toán tin sinh . 30
5.1. Thuật toán Blast . 30
5.2. Thuật toán Landau-Vishkin . 31
5.2.1. Một số khái niệm . 31
5.2.2. Khớp xâu xấp xỉ (Approximate String Matching) . 32
5.2.3. Giải pháp quy hoạch động . 32
Phần VI. Sơ lược về BlastReduce . 34
6.1. Tóm tắt: . 34
6.2. Read Mapping . 34
6.3. Thuật toán BlastReduce . 35
6.3.1. MerReduce: tính các Mer giống nhau . 36
6.3.2. SeedReduce: kết hợp các Mer nhất quán . 37
6.3.3. ExtendReduce: mở rộng các hạt giống . 37

Phần I. Giới thiệu chung
1.1. Hadoop là gì?
Mục đích : Mong muo n cu a ca c doanh nghie p la tận dụng lươ ng dư lie u khổng lồ
để đưa ra quyết định kinh doanh, Hadoop giu p ca c công ty xử ly kho i lươ ng cơ terabyte
v{ thậm chí l{ petabytes dữ liệu phức tạp tương đối hiệu quả với chi phí thấp hơn.
C|c doanh nghiệp đang nỗ lực tìm kiếm tho ng tin quy gia từ khối lượng lớn dữ
liệu phi cấu trúc được tạo ra bởi c|c web log, công cụ clickstream, c|c sản phẩm truyền
thông x~ hội. Ch nh ye u to đo dẫn la m ta ng sự quan ta m đe n co ng nghệ m~ nguồn mở
Hadoop.
Hadoop, một dự |n phần mềm quản lý dữ liệu Apache với nh}n trong khung
phần mềm MapReduce của Google, được thiết kế để hỗ trợ c|c ứng dụng sử dụng đươ c
số lượng lớn dữ liệu cấu trúc v{ phi cấu trúc.
Không giống như c|c hệ quản tri cơ sở dữ liệu truyền thống, Hadoop được thiết
kế để l{m việc với nhiều loại dữ liệu v{ dữ liệu nguồn. Công nghệ HDFS của Hadoop cho
phép khối lượng lơ n công việc được chia th{nh c|c khối dữ liệu nhỏ hơn được nh}n
rộng v{ ph}n phối trên c|c phần cứng của một cluster đe xử lý nhanh hơn. Công nghệ
n{y đ~ được sử dụng rộng r~i bởi một số trang web lớn nhất thế giới, chẳng hạn như
Facebook, eBay, Amazon, Baidu, v{ Yahoo. C|c nh{ quan s|t nhấn mạnh rằng Yahoo l{
một trong những nh{ đóng góp lớn nhất đối với Hadoop.
1.2. MapReduce là gì?
MapReduce l{ một “mô hình lập trình” (programming model), lần đầu b|o c|o
trong b{i b|o của Jefferey Dean v{ Sanjay Ghemawat ở hội nghị OSDI 2004. MapReduce
chỉ l{ một ý tưởng, một abstraction. Để hiện thực nó thì cần một implementation cụ thể.
Google có một implementation của MapReduce bằng C++. Apache có Hadoop, một
implementation m~ nguồn mở kh|c trên Java thì phải (ít nhất người dùng dùng Hadoop
qua một Java interface).
Khối dữ liệu lớn được tổ chức như một tập hợp gồm rất nhiều cặp (key, value)
Để xử lý khối dữ liệu n{y, lập trình viên viết hai h{m map v{ reduce. H{m map có input
l{ một cặp (k1, v1) v{ output l{ một danh s|ch c|c cặp (k2, v2). Chú ý rằng c|c input v{
output keys v{ values có thể thuộc về c|c kiểu dữ liệu kh|c nhau, tùy hỉ. Như vập h{m
map có thể được viết một c|ch hình thức như sau:
map(k1,v1) -> list(k2,v2)
MR sẽ |p dụng h{m map (m{ người dùng MR viết) v{o từng cặp (key, value)
trong khối dữ liệu v{o, chạy rất nhiều phiên bản của map song song với nhau trên c|c
m|y tính của cluster. Sau giai đoạn n{y thì chúng ta có một tập hợp rất nhiều cặp (key,
value) thuộc kiểu (k2, v2) gọi l{ c|c cặp (key, value) trung gian. MR cũng sẽ nhóm c|c
cặp n{y theo từng key, như vậy c|c cặp (key, value) trung gian có cùng k2 sẽ nằm cùng
một nhóm trung gian.

Link Download bản DOC

Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

You must be registered for see links

vinhthuan99vn · 18/3/16

Re: Báo cáo Tìm hiểu Hadoop, MapReduce, và các bài toán ứng dụng

Mình cần tài liệu này .. bạn up lên dùm mình nhá.. thanks

daigai · 18/3/16

link mới cập nhật, mời các bạn xem lại bài đầu để tải

Tạo bởi	Tiêu đề	Blog	Lượt trả lời	Ngày
D	Tìm hiểu về các chỉ tiêu phân tích chất lượng Nho	Nông Lâm Thủy sản	0	23/1/24
D	Tìm hiểu thơ các vua thời thịnh Trần (Từ Trần Thái Tông đến Trần Minh Tông)	Văn học	1	3/1/24
D	Tìm hiểu giải pháp phát hiện tấn công từ chối dịch vụ sử dụng phương pháp phân tích thống kê	Công nghệ thông tin	0	17/12/23
D	Tìm hiểu quy trình sản xuất bột ngũ cốc tại công ty CP SXTM Thực phẩm KAT Food	Nông Lâm Thủy sản	0	20/11/23
D	Nghiên cứu tìm hiểu về hệ thống tệp tin trong linux	Công nghệ thông tin	0	31/10/23
D	Tìm hiểu quy trình sản xuất dứa khoanh mini trong nước đường đóng hộp tại công ty cổ phần rau quả tiền giang	Nông Lâm Thủy sản	0	29/7/23
D	Bài Tập Lớn Mô Phỏng Hệ Thống Truyền Thông - Tìm Hiểu về Vệ Tinh VINASAT-1	Khoa học kỹ thuật	1	4/7/23
D	Tìm hiểu Hệ thống trách nhiệm xã hội SA 8000 (Social Accountability 8000)	Luận văn Kinh tế	0	2/7/23
D	Tìm hiểu quy trình công nghệ sản suất sữa chua 6 tấn/ngày	Khoa học kỹ thuật	0	24/6/23
D	Tìm hiểu hoạt động tái định vị thương hiệu Tập đoàn Trung Nguyên Legend	Luận văn Kinh tế	0	14/6/23

Tìm hiểu Hadoop, MapReduce, và các bài toán ứng dụng

missu_mrhieu

New Member

vinhthuan99vn

New Member

daigai

Well-Known Member

Các chủ đề có liên quan khác