hb_5658

New Member
Link tải luận văn miễn phí cho ae
Luận văn ThS. Công nghệ thông tin -- Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội, 2008
Tổng quan một số vấn đề lý thuyết liên quan đến nhà kho dữ liệu (Data warehouse), một công nghệ mới ra đời vào khoảng những năm 90, đã được ứng dụng rộng rãi trong thực tiễn. Tập trung nghiên cứu các kiểu kiến trúc tham chiếu, dòng dữ liệu và hệ thống của nhà kho dữ liệu, giới thiệu kiến trúc nhà kho dữ liệu cho tập đoàn Amadeus Entertainment. Phân tích mô hình dữ liệu theo chiều và lược đồ dữ liệu theo chiều, quy trình mô hình hóa dữ liệu chiều thực hiện thông qua ví dụ tiêu biểu về bài toán bán lẻ. Trình bày quá trình tách dữ liệu từ các hệ thống nguồn vào DWH. Tiến hành xử lý phân tích trực tuyến OLAP. Nghiên cứu DWH với các ứng dụng quan hệ khách hàng. Thực hiện DWH trên chương trình MS SQL Server 2005. Trình bày các kết quả đạt được, hạn chế và hướng phát triển trong tương lai
5
CHƢƠNG I: TỔNG QUAN
1 Đặt vấn đề và việc lựa chọn đề tài
1.1 Đặt vấn đề
Đến nay những hệ thống cơ sở dữ liệu đã có mặt tại hầu hết các hoạt động kinh tế xã hội.
Cùng với sự phát triển của công nghệ phần cứng như vi xử lý tốc độ cao, ổ đĩa với dung
lượng lưu trữ lớn, khả năng sao lưu thì dữ liệu của các tổ chức, doanh nghiệp trong quá trình
hoạt động đã được cập nhật và lưu giữ một cách đầy đủ. Cùng với sự đa dạng hoạt động hàng
ngày của phòng ban, nhân sự cũng như với các đối tác bên ngoài, dữ liệu nghiệp vụ của tổ
chức ngày càng trở nên khổng lồ. Dữ liệu có thể là tệp phẳng (không có cấu trúc) như hình
ảnh, văn bản đến dữ liệu có cấu trúc được lưu giữ tại các hệ quản trị CSDL. Một hãng bán lẻ
nổi tiếng như WalMart xử lý hàng chục triệu giao dịch mỗi ngày, hay ở Việt Nam, một công
ty bán lẻ thời trang cũng có hàng trăm đơn hàng.
Dữ liệu ngày qua ngày được tích lũy thay thế dần các hoạt động giấy tờ. Người ta có thể truy
cập dữ liệu mình cần một cách nhanh chóng bằng các phép tìm kiếm hay thông qua sơ đồ thư
mục lưu trữ trên hệ điều hành. Như vậy với các công nghệ hiện tại đã và đang đáp ứng tốt
một giai đoạn yêu cầu của người dùng.
Đến một ngày, khi những thành viên trong ban quản trị nhìn xuống và sửng sốt với độ lớn dữ
liệu của tổ chức, doanh nghiệp mình. Toàn bộ hoạt động, lịch sử được lưu dưới dạng số một
cách đầy đủ. Dữ liệu ấy chính là tài sản của công ty. Và họ muốn rằng những khối dữ liệu
lớn ấy phải nói lên những điều thật ý nghĩa. Điều này khác với việc họ muốn tìm lại một
đơn hàng, một thông tin mang tính cá nhân của một khách hàng. Ở đây họ muốn biết cái sơ
đồ doanh thu theo chiều lên hay xuống, muốn tách ra quy luật của bán hàng, quy luật của
năng suất hoạt động,... Quy luật ấy dựa trên các yếu tố thời gian, yếu tố con người, yếu tố địa
lý,…. Có quy luật ấy không, nếu có thì quy luật ấy được phát biểu và thể hiện như thế nào.
Nếu doanh nghiệp lấy ra được các thống kê, quy luật ấy họ sẽ có được những quyết sách
trong tương lai một cách phù hợp hơn, dựa trên những yếu tố có cơ sở đúng đắn. Mùa nào,
tháng nào trong năm, loại hàng hóa nào sẽ được đẩy mạnh ra thị trường. Vì thế có thể nói nếu
dữ liệu tích luỹ được phân tích chính xác, nó có thể trở thành những phương tiện cạnh tranh
hiệu quả.
Hiện nay dữ liệu tràn ngập trên những phương tiện lưu trữ. Với việc không có được những
công cụ khai thác thông tin hiệu quả , các tổ chức doanh nghiệp đang sống trong một môi
trường “giàu dữ liệu nhưng cùng kiệt thông tin”.
Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới,
những nhà ra quyết định xác định rõ cần có một thế hệ các kỹ thuật và công cụ tính toán - 6 –
mới nhằm hỗ trợ họ trong việc trích xuất các thông tin hữu ích (tri thức) được nhúng bên
trong các dữ liệu thu thập và tích luỹ. Họ mong muốn có những công cụ hỗ trợ quyết định
trong một môi trường tích hợp để họ có thể tự tạo những tiêu chuẩn của riêng mình hoặc
những báo biểu đặc biệt cho phân tích các dữ liệu phức tạp. Nắm được lợi ích của lượng dữ
liệu lớn, họ có thể xác định được những thông tin tiềm ẩn, chẳng hạn nhờ đó có thể tiết kiệm
chi phí, vươn tới những thị trường mới và theo vết tổng thu nhập một cách hiệu quả.
Data warehouse, một công nghệ mới ra đời vào khoảng đầu những năm 90 đã được đón
nhận và đưa vào thực tiễn. Tại Việt Nam, khái niệm và công nghệ này đã được làm quen cách
đây cũng được khoảng 5 năm nhưng trên thực tế chúng hầu như chưa được quan tâm và ứng
dụng một cách hiệu quả. Điều này cũng bắt nguồn từ nhu cầu quản lý trong một thế giới cạnh
tranh chưa gay gắt, trình độ quản lý không cao.
Với sự phát triển kinh tế xã hội, gia nhập WTO, môi trường ngày càng trở nên sôi động, mức
độ cạnh tranh cao. Trong những đòi hỏi phát triển trình độ quản lý có yêu cầu nhanh chóng
tổng hợp các khía cạnh trên dữ liệu hoạt động lớn của doanh nghiệp mình, nhìn ra được
những xu hướng đã và đang tồn tại ở các mặt hoạt động từ đó có những quyết định, xử lý
đúng đắn.
Chính vì điều này nên học viên chọn Data warehouse làm đề tài nghiên cứu.
1.2 Phạm vi của đề tài
Đề tài trình bày các vấn đề chính trong lĩnh vực Data warehouse bao gồm cơ sở lý thuyết và
một số khía cạnh thực tế của công nghệ này. Đề tài cũng trình bày hệ thống Microsoft SQL
Server phiên bản 2005 và áp dụng hệ thống này để xây dựng một nhà kho dữ liệu.
2 Định nghĩa lại vấn đề
2.1 Các hệ thống thông tin tác nghiệp
Công nghệ thông tin ngày càng đóng vai trò to lớn trong mọi hoạt động sản xuất quản lý của
con người. Hầu hết việc thông tin tự động hóa đã được đưa vào các quy trình của doanh
nghiệp tổ chức. Đó là tổ chức sản xuất, bán hàng, quản trị khách hàng, quản trị nguồn nhân
lực…
Trên thực tế các công ty muốn thành công trên thị trường, ngoài việc tổ chức bán hàng tốt
(giao dịch đơn giản, thuận tiện cho người mua và người quản lý bán hàng...), người lãnh đạo
công ty phải nắm được thực chất các quá trình diễn ra trong đơn vị mình và trong môi trường
kinh doanh mà đơn vị đó hoạt động. Để thực hiện các công việc của một công ty, người ta có
nhiều hệ chương trình tự động hoá các lĩnh vực quan trọng như kế toán, lập kế hoạch, giao
dịch khách hàng, lập hoá đơn... Chính vì lý do đó những hệ thống này có một cái tên cổ điển là hệ thống xử lý giao dịch (OLTP- online transaction processing). Thông thường OLTP bao
gồm một dãy lệnh: thu nhận (gathering) dữ liệu đầu vào, xử lý (processing) dữ liệu, và cập
nhật (updating) dữ liệu cũ với dữ liệu mới được nhập và xử lý.
Mỗi giao dịch tương ứng với một phép xử lý nghiệp vụ : tạo lập đơn hàng với khách hàng,
đăng ký khóa học, chuyển khoản,.. Các giao dịch này này trong quá trình thực hiện liên quan
đến nhiều vai trò tạo ra một hay nhiều thực thể. Bằng việc sử dụng hệ thống OLTP thì các
thông tin về thực thể, thông tin về quá trình thực hiện được lưu lại trên các hệ thống máy tính.
Các tổ chức, doanh nghiệp chưa đưa CNTT vào áp dụng thì chúng được lưu dưới dạng sổ
sách giấy tờ. Theo thời gian, mỗi doanh nghiệp sở hữu các kho dữ liệu.
Thông tin trước hết là một phát biểu có nghĩa được trích rút từ kho dữ liệu. Giá trị của thông
tin tỷ lệ thuận với “ độ không biết ” của con người. Thông tin có thể lấy từ bản thân một mảnh
dữ liệu hay có thể xâu chuỗi từ nhiều mảnh dữ liệu với một mối quan hệ nào đó. Quá trình
xác định mối quan hệ giữa các dữ liệu đòi hỏi các kiến thức cần thiết về khả năng nhận thức
và nắm bắt chuỗi thông tin cũng như cách làm cho thông tin đó có khả năng đáp ứng
một nhiệm vụ cụ thể. Trong quản lý, giá trị của thông tin có liên quan trực tiếp tới việc thông
tin đó giúp đạt được các mục tiêu của tổ chức.
Trong khi dữ liệu đang được một giao tác cập nhật, có thể có hay không một khoá ngăn
không cho giao tác khác truy cập dữ liệu. OLTP là cách hiệu quả khi các người dùng
muốn:
- Xử lý các dữ liệu đơn nói chung không giới hạn về mặt số lượng với tần suất
không biết trước một cách chính xác.
- Truy cập tức thì vào dữ liệu đã được cập nhật, phản ánh các giao tác trước đó
- Thay đổi dữ liệu tức thì để phản ánh giao tác vừa xử lý.
2.1.1 Các chức năng và thuộc tính cơ bản của OLTP
Khả năng truy cập và cập nhật các dữ liệu chia sẻ trên các hệ thống OLTP có các đặc tính
- Truy cập trực tuyến (online)
- Truy cập tức thời (availability)
- Phản hồi nhanh chóng (response)
- Chi phí thấp (low cost).
Truy cập trực tuyến: để truy cập, user cần một máy trạm (workstation) nối với hệ thống.
Kết nối vật lý có thể thông qua mạng nội bộ LAN, mạng mở rộng WAN (bao gồm cả mạng
nội thị MAN), hay internet (với mạng riêng ảo hay hệ thống web – based). Kết nối lô gíc
được cung cấp bởi hệ thống OLTP hay riêng lẻ, hay được liên kết với một cách
truy cập truyền thông và trình điều khiển mạng.
Truy cập tức thời: Đây là một yêu cầu rất quan trong đối với một hệ thống OLTP. Vì quy
trình của công ty được xây dựng dựa trên 1 cấu thành là hệ thống thông tin nên nó phải luôn
sẵn sàng cho bất cứ nhu cầu truy cập ở thời điểm nào. Một công ty dịch vụ với 24 giờ làm
việc một ngày trong cả tuần, những nhu cầu truy cập dữ liệu không được định trước. Mặt
khác nhiều công ty còn cho phép tương tác với khách hàng thông qua hệ thống. Vì thế để
công ty hoạt động thông suốt thì hệ thống cần có khả năng truy cập tức thời. Để đảm bảo
được khả năng này cần có chất lượng và công nghệ kết nối phần cứng, phần mềm, ứng
dụng, và các thiết bị hay tiện ích tự động phục hồi (recover) từ bất cứ lỗi cấu tạo nào. Cùng
với khả năng sửa lỗi hay vượt lỗi, hệ thống OLTP cũng cần giảm thiểu ảnh hưởng của các
hoạt động bất thường như nâng cấp phần cứng, thay đổi phần mềm, chuyển đổi công việc, lưu
trữ dữ liệu, và tái cơ cấu tổ chức.
Phản hồi nhanh chóng: Như đã phân tích ở trên nhân viên hay thậm chí khách hàng đối tác
của doanh nghiệp sử dụng hệ thống OLTP hầu như mọi lúc. Để duy trì và đáp ứng hiệu quả
công việc thì thời gian phản hồi giao tác phải đủ nhanh chấp nhận được với người dùng.
Thuật toán đáp ứng giao tác tốt, chế độ sắp xếp hàng đợi giao tác hợp lý là những nhân tố để
đáp ứng yêu cầu này. Việc sắp xếp ưu tiên giao tác đòi hỏi có chính sách ngay từ đầu để phân
hoạch tải trong những điều kiện ngặt cùng kiệt khi đến giờ cao điểm truy cập
Tiết kiệm chi phí: Các hệ thống OLTP hiện nay đã được xây dựng và sử dụng một cách rộng
rãi nhưng ít ai để ý đến “chi phí xử lý mỗi giao tác” . Chi phí cho từng giao tác chiếm một tỷ
lệ trong tổng chi phí cần thiết của hệ thống để thực hiện giao tác. Như vậy, mỗi giao tác phải
được sắp xếp, xử lý, và kết thúc một cách có hiệu qủa.
Ưu điểm tuyệt đối của các hệ thống OLTP là xử lý các giao dịch tương tác, dễ bảo trì và
khống chế dữ liệu thừa, thiết lập dữ liệu quan hệ trọn vẹn. Dữ liệu có trong các Cơ sở dữ liệu
của OLTP có một số đặc điểm đáng quan tâm là:
- Dữ liệu dạng "thô", có nghĩa là mức độ tổng quát, trừu tượng của dữ liệu này rất
thấp. Điều này cũng dễ hiểu vì ngay ban đầu CSDL đã được thiết kế nhằm lưu các
mảnh dữ liệu ghi nhận giá trị thuộc tính của các thực thế nghiệp vụ. Chúng được tạo ra
nhằm mục đích chính là cập nhật và truy xuất theo kiểu đơn lẻ.
- Dữ liệu bao hàm hiện tai và lịch sử: Phần dữ liệu hiện tại là dữ liệu đang hay sẽ liên
quan trực tiếp đến giao dịch, có thể ghi và đọc. Phần dữ liệu lịch sử không còn liên
quan đến các giao dịch đang hay sẽ xẩy ra, chỉ để đọc. Trong quá trình hoạt động của
OLTP, dữ liệu sống dần chuyển thành lịch sử, do vậy dung lượng dữ liệu lịch sử ngày
Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 

trunghieu11314

New Member
Trích dẫn từ hb_5658:
Luận văn:Data warehouse - lý thuyết và thực tiễn : Luận văn ThS. Công nghệ thông tin: 1 01 10
Nhà xuất bản:ĐHCN
Ngày:2008
Chủ đề:Công nghệ thông tin
Data warehouse
Dịch vụ
Nhà kho dữ liệu
Quan hệ khách hàng
Miêu tả:123 tr. + CD-ROM
Luận văn ThS. Công nghệ thông tin -- Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội, 2008
Tổng quan một số vấn đề lý thuyết liên quan đến nhà kho dữ liệu (Data warehouse), một công nghệ mới ra đời vào khoảng những năm 90, đã được ứng dụng rộng rãi trong thực tiễn. Tập trung nghiên cứu các kiểu kiến trúc tham chiếu, dòng dữ liệu và hệ thống của nhà kho dữ liệu, giới thiệu kiến trúc nhà kho dữ liệu cho tập đoàn Amadeus Entertainment. Phân tích mô hình dữ liệu theo chiều và lược đồ dữ liệu theo chiều, quy trình mô hình hóa dữ liệu chiều thực hiện thông qua ví dụ tiêu biểu về bài toán bán lẻ. Trình bày quá trình tách dữ liệu từ các hệ thống nguồn vào DWH. Tiến hành xử lý phân tích trực tuyến OLAP. Nghiên cứu DWH với các ứng dụng quan hệ khách hàng. Thực hiện DWH trên chương trình MS SQL Server 2005. Trình bày các kết quả đạt được, hạn chế và hướng phát triển trong tương lai
Electronic Resources
Kiểu:text
Định dạng:text/pdf
Link tải Free download cho anh em Ketnooi:
V_L0_01961_noi_dung.pdf


Report: Link bị hỏng rồi bạn Admin ơi....
 

daigai

Well-Known Member
link mới cập nhật, mời các bạn xem lại bài đầu để tải
 

Các chủ đề có liên quan khác

Top