missu_mrhieu

New Member
Link tải luận văn miễn phí cho ae

Phần I. Giới thiệu chung . 5
1.1. Hadoop l{ gì? . 5
1.2. MapReduce l{ gì? . 5
Phần II. Cài đặt Hadoop . 7
1. Cài đặt máy ảo Ubuntu 10.10 (32 bit) trên VMware . 7
1. Cài đặt Vmware tools cho Ubuntu . 7
2. Cài openSSH cho ubuntu . 7
3. Cài java: . 7
4. Thêm user hadoop vào nhóm hadoop . 8
5. Cấu hình ssh . 9
6. Vô hiệu hóa IPv6 . 11
7. Download và cài đặt hadoop . 12
a. Download Hadoop 0.20.2 và lưu vào thư mục /usr/local/ . 12
b. Cấu hình . 12
c. Định dạng các tên node . 13
d. Chạy hadoop trên cụm một node . 13
8. Chạy một ví dụ MapReduce . 14
9. Cài đặt và sử dụng Hadoop trên Eclipse . 17
Phần III. Thành phần của Hadoop . 20
1. Một số thuật ngữ. . 20
2. C|c trình nền của Hadoop . 21
2.1. NameNode . 21
2.2. DataNode . 21
2.3. Secondary NameNode . 22
2.4. JobTracker . 22
2.5. TaskTracker . 23
Phần IV. Lập trình MapReduce cơ bản . 25
1. Tổng quan một chương trình MapReduce . 25
2. Các loại dữ liệu mà Hadoop hỗ trợ . 26
2.1. Mapper . 27
2.2. Reducer . 28
2.3. Partitioner – chuyển hướng đầu ra từ Mapper . 29
Phần V. Sơ lược về các thuật toán tin sinh . 30
5.1. Thuật toán Blast . 30
5.2. Thuật toán Landau-Vishkin . 31
5.2.1. Một số khái niệm . 31
5.2.2. Khớp xâu xấp xỉ (Approximate String Matching) . 32
5.2.3. Giải pháp quy hoạch động . 32
Phần VI. Sơ lược về BlastReduce . 34
6.1. Tóm tắt: . 34
6.2. Read Mapping . 34
6.3. Thuật toán BlastReduce . 35
6.3.1. MerReduce: tính các Mer giống nhau . 36
6.3.2. SeedReduce: kết hợp các Mer nhất quán . 37
6.3.3. ExtendReduce: mở rộng các hạt giống . 37

Phần I. Giới thiệu chung
1.1. Hadoop là gì?
Mục đích : Mong muo n cu a ca c doanh nghie p la tận dụng lươ ng dư lie u khổng lồ
để đưa ra quyết định kinh doanh, Hadoop giu p ca c công ty xử ly kho i lươ ng cơ terabyte
v{ thậm chí l{ petabytes dữ liệu phức tạp tương đối hiệu quả với chi phí thấp hơn.
C|c doanh nghiệp đang nỗ lực tìm kiếm tho ng tin quy gia từ khối lượng lớn dữ
liệu phi cấu trúc được tạo ra bởi c|c web log, công cụ clickstream, c|c sản phẩm truyền
thông x~ hội. Ch nh ye u to đo dẫn la m ta ng sự quan ta m đe n co ng nghệ m~ nguồn mở
Hadoop.
Hadoop, một dự |n phần mềm quản lý dữ liệu Apache với nh}n trong khung
phần mềm MapReduce của Google, được thiết kế để hỗ trợ c|c ứng dụng sử dụng đươ c
số lượng lớn dữ liệu cấu trúc v{ phi cấu trúc.
Không giống như c|c hệ quản tri cơ sở dữ liệu truyền thống, Hadoop được thiết
kế để l{m việc với nhiều loại dữ liệu v{ dữ liệu nguồn. Công nghệ HDFS của Hadoop cho
phép khối lượng lơ n công việc được chia th{nh c|c khối dữ liệu nhỏ hơn được nh}n
rộng v{ ph}n phối trên c|c phần cứng của một cluster đe xử lý nhanh hơn. Công nghệ
n{y đ~ được sử dụng rộng r~i bởi một số trang web lớn nhất thế giới, chẳng hạn như
Facebook, eBay, Amazon, Baidu, v{ Yahoo. C|c nh{ quan s|t nhấn mạnh rằng Yahoo l{
một trong những nh{ đóng góp lớn nhất đối với Hadoop.
1.2. MapReduce là gì?
MapReduce l{ một “mô hình lập trình” (programming model), lần đầu b|o c|o
trong b{i b|o của Jefferey Dean v{ Sanjay Ghemawat ở hội nghị OSDI 2004. MapReduce
chỉ l{ một ý tưởng, một abstraction. Để hiện thực nó thì cần một implementation cụ thể.
Google có một implementation của MapReduce bằng C++. Apache có Hadoop, một
implementation m~ nguồn mở kh|c trên Java thì phải (ít nhất người dùng dùng Hadoop
qua một Java interface).
Khối dữ liệu lớn được tổ chức như một tập hợp gồm rất nhiều cặp (key, value)
Để xử lý khối dữ liệu n{y, lập trình viên viết hai h{m map v{ reduce. H{m map có input
l{ một cặp (k1, v1) v{ output l{ một danh s|ch c|c cặp (k2, v2). Chú ý rằng c|c input v{
output keys v{ values có thể thuộc về c|c kiểu dữ liệu kh|c nhau, tùy hỉ. Như vập h{m
map có thể được viết một c|ch hình thức như sau:
map(k1,v1) -> list(k2,v2)
MR sẽ |p dụng h{m map (m{ người dùng MR viết) v{o từng cặp (key, value)
trong khối dữ liệu v{o, chạy rất nhiều phiên bản của map song song với nhau trên c|c
m|y tính của cluster. Sau giai đoạn n{y thì chúng ta có một tập hợp rất nhiều cặp (key,
value) thuộc kiểu (k2, v2) gọi l{ c|c cặp (key, value) trung gian. MR cũng sẽ nhóm c|c
cặp n{y theo từng key, như vậy c|c cặp (key, value) trung gian có cùng k2 sẽ nằm cùng
một nhóm trung gian.

Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 

vinhthuan99vn

New Member
Re: Báo cáo Tìm hiểu Hadoop, MapReduce, và các bài toán ứng dụng

Mình cần tài liệu này .. bạn up lên dùm mình nhá.. thanks
 

daigai

Well-Known Member
link mới cập nhật, mời các bạn xem lại bài đầu để tải
 

Các chủ đề có liên quan khác

Top