Download miễn phí Đồ án Áp dụng các kỹ thuật trong big data vào lưu trữ dữ liệu





MỤC LỤC

MỤC LỤC. 2

DANH MỤC HÌNH . 4

DANH MỤC BẢNG. 5

DANH MỤC TỪ VIÊT TẮT. 6

LỜI MỞ ĐẦU . 7

CHưƠNG 1: CÔNG NGHỆ QUẢN LÝ DỮ LIỆU LỚN . 9

1.1 Công nghệ nền tảng áp dụng cho Big data . 9

1.1.1 Tìm hiểu các thành phần công nghệ Big data. 9

1.1.2 Ảo hóa và hỗ trợ tính toán phân tán. 16

1.1.3 Kiểm tra đám mây và Big data . 24

1.2 Quản lý dữ liệu lớn. 36

1.2.1 Cơ sở dữ liệu hoạt động. 36

1.2.2 Thiết bị và kho dữ liệu lớn. 49

CHưƠNG 2: XÂY DỰNG KHO DỮ LIỆU VĂN BẢN. 51

2.1 Khám phá dữ liệu phi cấu trúc. 51

2.2 Tìm hiểu về phân tích văn bản. 52

2.3 Phân tích và kỹ thuật khai thác . 54

2.3.1 Tìm hiểu thu thập thông tin. 56

2.3.2 Nguyên tắc phân loại . 57

2.4 Đưa kết quả cùng với dữ liệu có cấu trúc . 57

2.5 Đưa dữ liệu lớn sử dụng. 58

2.6 Công cụ phân tích văn bản cho Big data . 60

2.6.1 Attensity. 60

2.6.2 Clarabridge. 60

2.6.3 IBM . 61

2.6.4 OpenText. 61

2.6.5 SAS . 623

CHưƠNG 3: HADOOP VÀ THỰC NGHIỆM. 63

3.1 Giới thiệu hệ thống Hadoop. 63

3.1.1 Mô hình xử lý dữ liệu phân tán Mapreduce. 63

3.1.2 Hadoop – nền tảng lập trình theo mô hình Mapreduce . 66

3.1.3 Xây dựng một chương trình chạy trên nền Hadoop . 73

3.2 Thực nghiệm . 76

3.2.1 Hướng dẫn cài đặt Hadoop cluster. 76

3.2.2 Khởi động hệ thống. 80

KẾT LUẬN . 87

TÀI LIỆU THAM KHẢO. 88





Để tải tài liệu này, vui lòng Trả lời bài viết, Mods sẽ gửi Link download cho bạn ngay qua hòm tin nhắn.

Ketnooi -


Ai cần tài liệu gì mà không tìm thấy ở Ketnooi, đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:



cũng nhƣ dữ liệu phi thời gian thực. Nó sẽ đòi hỏi Hadoop MapReduce
lƣu trữ và xử lý. Có gì tuyệt vời về PaaS trong kịch bản này là cách
nhanh chóng các ứng dụng có thể đƣợc triển khai. Bạn sẽ không phải
chờ đợi cho các đội IT nội bộ để có đƣợc tốc độ trên các công nghệ mới
và bạn có thể thử nghiệm tự do hơn. Một khi bạn đã xác định đƣợc một
giải pháp vững chắc, bạn có thể sử dụng nó khi mà CNTT luôn sẵn sàng
để hỗ trợ nó.
- SaaS trong một đám mây lai: Tại đây bạn có thể muốn phân tích "tiếng
nói của khách hàng" dữ liệu từ nhiều kênh. Nhiều công ty đã nhận ra
rằng một trong những nguồn dữ liệu quan trọng nhất là những gì khách
hàng nghĩ và nói về công ty của họ, sản phẩm của họ, và các dịch vụ của
họ. Tiếp cận đƣợc tiếng nói của các dữ liệu khách hàng có thể cung cấp
những hiểu biết vô giá vào hành vi và hành động. Ngày càng có nhiều
khách hàng đang đƣa ra ý kiến của mình trên các trang web công cộng
trên Internet. Các giá trị đầu vào của khách hàng có thể đƣợc tăng
cƣờng rất nhiều bằng cách kết hợp dữ liệu công cộng này vào phân tích
của bạn. Nhà cung cấp SaaS của bạn cung cấp nền tảng cho việc phân
tích cũng nhƣ các dữ liệu truyền thông xã hội. Ngoài ra, bạn có thể sử
dụng dữ liệu CRM doanh nghiệp của bạn trong môi trƣờng đám mây
riêng của mình để đƣa vào phân tích.
Một số ngƣời trong ngành công nghiệp đang sử dụng các ứng dụng dữ liệu
lớn khi mô tả các ứng dụng chạy trong đám mây sử dụng Big data. Ví dụ này
bao gồm Amazon.com và LinkedIn. Bây giờ một số ngƣời có thể tranh luận rằng
đây thực sự là những ứng dụng SaaS giải quyết những vấn đề kinh doanh cụ thể.
Nó thƣờng là một vấn đề của ngữ nghĩa trong một không gian mới nổi.
32
1.1.3.5 Nhà cung cấp điện toán đám mây trên Big data
Điện toán đám mây có đủ hình dạng và kích cỡ và cung cấp nhiều sản
phẩm khác nhau. Một số các nhà cung cấp điện toán đám mây cung cấp dịch vụ
IaaS có thể đƣợc sử dụng cho dữ liệu lớn bao gồm Amazon.com, AT & T,
GoGrid, Joyent, Rackspace, IBM, và Verizon / Terremark. Tuy nhiên, các công
ty điện toán đám mây và các nhà cung cấp dịch vụ điện toán đám mây cũng
đƣợc cung cấp phần mềm có mục tiêu đặc biệt cho dữ liệu lớn.
a. Điện toán đám mây công cộng của Amazon
Hiện nay, một trong những nhà cung cấp dịch vụ IaaS cao nhất là Amazon
Web Services với Elastic Compute Cloud (Amazon EC2). Amazon đã không bắt
đầu với một tầm nhìn để xây dựng một doanh nghiệp dịch vụ cơ sở hạ tầng lớn.
Thay vào đó, công ty đã xây dựng một cơ sở hạ tầng lớn để hỗ trợ kinh doanh
bán lẻ của riêng mình và phát hiện ra rằng các nguồn lực của nó đã không đƣợc
tận dụng. Thay vì cho phép tài sản này để ngồi nhàn rỗi, họ quyết định để tận
dụng nguồn tài nguyên này trong khi thêm vào dòng dƣới cùng. Dịch vụ EC2
của Amazon đã đƣợc đƣa ra vào năm 2006 và tiếp tục phát triển.
Amazon EC2 cung cấp khả năng mở rộng dƣới sự kiểm soát của ngƣời
dùng, với ngƣời sử dụng phải trả cho nguồn tài nguyên theo giờ. Việc sử dụng
các giới hạn linh hoạt trong việc đặt tên của EC2 của Amazon là đáng kể. Ở đây,
độ linh hoạt đề cập đến khả năng mà ngƣời sử dụng EC2 phải tăng hay giảm
các nguồn lực cơ sở hạ tầng giao để đáp ứng nhu cầu của họ.
Amazon cũng cung cấp các dịch vụ dữ liệu lớn khác cho khách hàng với
danh mục đầu tƣ của Amazon Web Services của nó. Chúng bao gồm những điều
sau đây:
- Amazon Elastic MapReduce: Mục tiêu cho xử lý khối lƣợng lớn dữ liệu.
Elastic MapReduce sử dụng một khuôn khổ lƣu trữ Hadoop đang chạy
trên EC2 và Amazon Simple Storage Service (Amazon S3). Ngƣời dùng
có thể chạy HBase (một phân phối, lƣu trữ dữ liệu cột định hƣớng).
- Amazon DynamoDB: Một dịch vụ cơ sở dữ liệu quản lý hoàn toàn
không chỉ SQL (NoSQL). DynamoDB là khả năng chịu lỗi, tính sẵn
sàng cao dịch vụ lƣu trữ dữ liệu cung cấp tự cung, khả năng mở rộng
trong suốt, đơn giản và quản. Nó đƣợc thực hiện trên các ổ SSD (ổ đĩa
trạng thái rắn) cho độ tin cậy và hiệu suất cao.
33
- Amazon Simple Storage Service (S3): Một dịch vụ web quy mô đƣợc
thiết kế để lƣu trữ bất kỳ số lƣợng dữ liệu. Sức mạnh của trung tâm thiết
kế của nó là hiệu suất và khả năng mở rộng, vì vậy nó không phải là tính
năng đầy nhƣ các cửa hàng dữ liệu khác. Dữ liệu đƣợc lƣu trữ trong
"thùng" và bạn có thể chọn một hay nhiều khu vực trên toàn cầu cho
lƣu trữ vật lý để giải quyết nhu cầu độ trễ.
- Amazon High Performance Computing: Điều chỉnh cho các nhiệm vụ
chuyên môn, dịch vụ này cung cấp độ trễ thấp, điều chỉnh các cụm tính
toán hiệu năng cao. Thƣờng xuyên đƣợc sử dụng nhất bởi các nhà khoa
học và các viện nghiên cứu, HPC đang bƣớc vào dòng chính. Các cụm
Amazon HPC mục đích là xây dựng cho khối lƣợng công việc cụ thể và
có thể đƣợc cấu hình lại dễ dàng cho nhiệm vụ mới.
- Amazon RedShift: Có sẵn trong bản xem trƣớc hạn, RedShift là một
dịch vụ lƣu trữ dữ liệu quy mô petabyte đƣợc xây dựng trên một kiến
trúc MPP khả năng mở rộng. Đƣợc quản lý bởi Amazon, nó cung cấp
một thay thế đáng tin cậy an toàn cho kho dữ liệu trong nhà và tƣơng
thích với một số công cụ kinh doanh thông minh phổ biến.
b. Dịch vụ dữ liệu lớn Google
Google, ngƣời lớn tìm kiếm Internet, cũng cung cấp một số dịch vụ
đám mây nhắm mục tiêu cho dữ liệu lớn. Chúng bao gồm những điều sau đây:
- Google Compute Engine: Một khả năng dựa trên đám mây điện toán
máy ảo, Google Compute Engine cung cấp một môi trƣờng máy tính an
toàn, linh hoạt từ các trung tâm dữ liệu hiệu quả năng lƣợng. Google
cũng cung cấp các giải pháp quản lý khối lƣợng công việc từ một số đối
tác công nghệ đã đƣợc tối ƣu hóa sản phẩm của mình cho Google
Compute Engine.
- Google Big Query: Cho phép bạn chạy các SQL giống nhƣ truy vấn ở
một tốc độ cao với hàng tỷ bộ dữ liệu lớn. Mặc dù nó là tốt để truy vấn
dữ liệu, dữ liệu không thể đƣợc sửa đổi sau khi nó đang ở trong đó. Hãy
xem xét Google Big Query một loại hệ thống trực tuyến Analytical
Processing (OLAP) cho dữ liệu lớn. Nó rât tốt để báo cáo đột xuất hay
phân tích thăm dò.
34
- Google Prediction API: Hỗ trợ đám mây, công cụ dự báo có khả năng
xác định các mẫu trong dữ liệu và sau đó ghi nhớ chúng. Nó có thể tìm
hiểu thêm về một mô hình mỗi khi nó đƣợc sử dụng. Các mô hình có thể
đƣợc phân tích cho nhiều mục đích, bao gồm phát hiện gian lận, phân
tích thùng đựng, và ý kiến của khách hàng.
c. Microsoft Azure
Dựa trên khái niệm trừu tƣợng Windows và SQL, Microsoft đã sản xuất
một bộ công cụ phát triển, hỗ trợ máy ảo, quản lý và dịch vụ truyền thông, và
các dịch vụ điện thoại di động trong một cung cấp PaaS. Đối với khách hàng có
chuyên môn sâu trong Net, SQLServer, và Windows, việc áp dụng các PaaS dựa
trên Azure rất đơn giản.
Để giải quyết những yêu cầu mới để tích hợp dữ liệu lớn vào các giải pháp
Windows Azure, Microsoft cũng đã bổ sung thêm Windows Azure HDInsight.
Đƣợc xây dựng trên nền tảng dữ liệu Hortonworks (HDP), mà theo Microsoft,
cung cấp khả năng tƣơng thích 100% với Apache Hadoop, HDInsight hỗ trợ kết
nối với Microsoft Excel và các công cụ khác kinh doanh thông minh (BI). Ngoài
Azure HDInsight cũng có thể đƣợc triển khai trên Windows Server.
d. OpenStack
Đƣợc khởi xƣớng bởi Rackspace và NASA, OpenStack đang thực hiện một
nền tảng đám mây mở nhắm đến hai đám mây công cộng hay riêng. Trong khi tổ
chức đƣợc quản lý chặt chẽ bởi Rackspace, nó chuyển đến một nền tảng
OpenStack riêng biệt. Mặc dù các công ty có thể tận dụng OpenStack tạo triển
khai độc quyền, việc chỉ định OpenStack đòi hỏi sự phù hợp với việc thực hiện
tiêu chuẩn của dịch vụ.
Mục tiêu OpenStack là cung cấp một cách ồ, cho thuê đám mây có thể chạy
trên bất kỳ phần cứng. OpenStack đang xây dựng một hệ sinh thái rộng lớn của
các đối tác quan tâm trong việc áp dụng nền tảng đám mây của mình, bao gồm
Dell, HP, Intel, Cisco, Red Hat, và IBM, cùng với ít nhất 100 ngƣời khác đang
sử dụng OpenStack là nền tảng cho các dịch vụ đám mây của mình. Về bản chất,
OpenStack là một nguồn mở IaaS sáng kiến xây dựng trên Ubuntu, một hệ điều
hành dựa trên các phân phối Linux Debian. Nó cũng có thể chạy trên các phiên
bản của Linux Red Hat.
35
OpenStack cung cấp một loạt các dịch vụ, bao gồm cả tính toán, lƣu trữ đối
tƣợng, danh mục và kho lƣu trữ, đo tốc độ, danh tính, và kết nối mạng. Trong
điều kiện của dữ liệu lớn, Rackspace và Hortonworks (một nhà cung cấp một
nền tảng quản lý dữ liệu mã nguồn mở dựa trên Apache Hadoop) thông báo rằng
Rackspace sẽ phát hành dựa trên đám mây công cộng dịch vụ Hadoop
OpenStack, mà sẽ đƣợc xác nhận và hỗ trợ bởi Hortonworks và sẽ cho phép
khách hàng nhanh chóng tạo ra một môi trƣờng dữ liệu lớn.
e. Trƣờng hợp phải cẩn thận khi sử dụng các dịch vụ điện toán đám mây
Dịch vụ dựa trên đám mây có thể cung cấp một giải pháp kinh tế cho nhu
cầu dữ liệu lớn của bạn, nhƣng những đám mây có vấn đề của nó. Dƣới đây là
một số vấn đề cần xem xét:
- Tính toàn vẹn dữ liệu: Bạn cần chắc chắn rằng nhà cung cấp của...

 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
D Nâng cao hiệu quả áp dụng các phương pháp địa chất và địa vật lý hiện đại nghiên cứu địa chất môi trường vùng đồng bằng sông hồng và cửu long Khoa học Tự nhiên 0
D Các phương tiện thanh toán quốc tế và đánh giá thực trạng áp dụng ở Việt Nam Luận văn Kinh tế 0
D Sử dụng phương pháp sắc ký lỏng cao áp để xác định một số kim loại nặng trong các đối tượng môi trường Khoa học Tự nhiên 0
D Hoạt động thu thập và đánh giá chứng cứ của Tòa án trong tố tụng dân sự và thực tiễn áp dụng tại các Tòa án nhân dân ở tỉnh Lạng Sơn Luận văn Luật 0
D Thực trạng và đề xuất các giải pháp nâng cao chất lượng thi công công trình xây dựng, áp dụng cho dự án đầu tư xây dựng bệnh viện sản nhi Quảng Ninh Y dược 0
D Thực trạng áp dụng 5S tại các doanh nghiệp sản xuất công nghiệp nhỏ và vừa trên địa bàn thành phố Hà Khoa học kỹ thuật 0
D Áp dụng 5S tại các doanh nghiệp sản xuất nhỏ và vừa ở Việt Nam - Thực trạng và khuyến nghị Khoa học kỹ thuật 0
T Áp dụng các mô hình toán kinh tế trong việc phân tích cổ phiếu ngành điện trên thị trường chứng khoá Luận văn Kinh tế 0
A Các kiến nghị và giải pháp liên quan tới việc áp dụng thuế chống bán phá giá tại Việt Nam Luận văn Kinh tế 3
V Nghiên cứu đề xuất các giải pháp sản xuất sạch hơn áp dụng tại công ty cổ phần xuất nhập khẩu thuỷ s Khoa học Tự nhiên 0

Các chủ đề có liên quan khác

Top