anhdangtimem_pl

New Member

Download miễn phí Đề tài Nghiên cứu datamining trong Microsoft sever 2005





Tham sốthuật toán
Thuật toán kết hợp rất nhạy cảm với việc cài đăt tham sốthuật toán. Sau đây là
danh sách những tham sốcho Microsoft Association Algorithm.
• Minimum_Supportlà tham sốgiới hạn. Nó khai báo item yêu cầu hỗtrợtối
thiểu phải thấy đủ điều kiện nhưmột itemset phổbiến. Giá trịcủa nó trong khoảng từ0
đến 1. Giá trịmặc định là 0.03. Nếu giá trịnày được đặt quá thấp. Ví dụ: 0.001 – thuật
toán mất nhiều thời gian xửlý và đòi hỏi nhiều bộnhớ.
Nếu Minimum_Support được đặt lớn hơn 1, nó được xem nhưgiới hạn cho
một sốnhững trường hợp thay vì phần trăm.
• Maximum_Support là tham sốgiới hạn. Nó xác định một ngưỡng hỗtrợtối
thiểu của itemset phổbiến. Giá trịcủa nó trong khoảng từ0 đến 1, Giá trịmặc định là
0.001. Tham sốnày có thể được dùng đểlọc ra những itemhay xảy ra.
Nếu Maximum_Support được thiết lập lớn hơn 1, nó được xem nhưgiới hạn
cho một sốtrường hợp thay vì tỷlệphần trăm.
• Minimum_Probability là tham sốgiới hạn. Nó xác định khảnăng tối thiểu
cho một luật kết hợp. Giá trịcủa nó trong khoảng từ0 đến 1. Mặc định là 0.4.
• Minimum_Importance là tham sốgiới hạn cho luật kết hợp. Những luật ít
quan trọng hơn Minimum_Importance được tìm ra.
• Minimum_Itemset_Size chỉrõ kích thước nhỏnhất của một itemset. Mặc định
là 0. Đôi khi không cần chú ý đến sốlớn của một item nhỏhơn. Chẳng hạn, có thểchỉ
quan tâm trong itemsetcó kích thướt lớn hơn 4.
Việc giảm bớt Minimum_Itemset_Sizesẽkhông giảm bớt thời gian tiến trình
bởi vì thuật toán phải bắt đầu với itemset kích thướt 1 và tăng kích thướt lên từng
bước.
• Maximum_Itemset_Count xác định sốlớn nhất của các itemset. Nếu không
được chỉra, thuật toán sẽtạo ra tất cảcác itemset dựa vào Minimum_Support. Tham số
này tránh việc tạo ra sốlớn nhất của các itemset. Khi có quá nhiều itemset, thuật toán
chỉgiữtop n itemsetdựa vào số điểm quan trọng của các itemset.
• Optimized_Prediction_Count được dùng để đặt sốcác item giới thiệu được
hỏi bởi câu truy vấn dự đoán. Mặc định thuật toán sửdụng các luật với chiều dài là 2
cho dự đoán. Có thểtăng sốnày lên đểcó chất lượng dự đoán tốt hơn.



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

ng sản phẩm như bánh ngọt, nước ngọt, và sữa. Chẳng hạn khảo sát tỉ mỉ nhân
khẩu khách hàng, một itemset chứa một tập hợp của những giá trị thuộc tính như {
Giới tính = ‘ nam’, trình độ học vấn = ‘cử nhân’}. Mỗi itemset có một kích thước, là
số lượng item được chứa trong 1 itemset. Kích thước của itemset { bánh ngọt, nước
ngọt, sữa} là 3.
Frequent itemsets là các tập hợp mục chọn tương đối phổ biến trong dataset.
Giới hạn thông thường dành cho một itemset được định nghĩa là sử dụng support,
được nhắc lại trong phần kế tiếp.
Chú ý : Để được chính xác hơn thì sữa, nước ngọt và bánh tất cả đều là những thuộc
tính. Những giá trị của nó là ở hệ nhị phân: ở dạng không có (missing) hay ở dạng có
(existing). Chúng ta dùng (sữa, bánh ngọt, nước ngọt ) để làm mẫu cho đơn giản, với {
Bánh ngọt = có, nước ngọt = có, và sữa = có}.
2.2. Support
Sử dụng Support để đánh giá mức độ phổ biến của một itemset. Support của
một itemset {A, B} được tạo thành dựa trên tổng số lượng giao dịch của cả A và B.
Support ({A, B}) = NumberofTransactions(A, B)
Minimum_Support là một tham số giới hạn mà ta cần chỉ định trước khi xử lý
một kiểu kết hợp, nghĩa là chỉ vì ta rất thích những itemset và qui tắc này mà tái hiện
lại ít nhất là một lượng nhỏ của dataset hỗ trợ, khác so với luật.
Chú ý: Minimum_Support thay mặt cho một số trường hợp xuất hiện giới hạn thường
xuyên của itemset. Tuy nhiên, nhiều người thấy nó có ích để tạo một giá trị phần trăm
thay vì những số đếm được trên thực tế dành cho tham số này. Chẳng hạn,
Minimum_Support=0.03 có nghĩa rằng giới hạn thường xuyên là 3%. Trong Microsoft
SVTH: Hoàng Thị Thu-104102128
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 22
Association Rules, nếu một người dùng chỉ định tham số này là số nguyên, thuật toán
coi trường hợp thực tế là giới hạn (threshold). Nếu một người dùng nhập vào một số
float (nhỏ hơn 1.0) cho tham số này, thuật toán coi như nó là giới hạn phần trăm
(percentage).
2.3. (Probability)xác suất (Confidence)-độ tin cậy
Probability-xác suất là một đặc tính của một quy tắc kết hợp. Xác suất của quy
tắc A=>B được tính toán sử dụng support của itemset {A, B} bị chia bởi support của
{A}. Xác suất này cũng được gọi là confidence-độ tin cậy trong cùng những nghiên
cứu của data mining.
Nó được miêu tả như sau :
Probability (A => B) = Probability (B|A) = Support (A, B)/ Support (A)
Minimum_Probability xác suất tối thiểu là một tham số giới hạn mà ta cần chỉ
định trước khi tiến hành chạy thuật toán. Nghĩa là chỉ vì người dùng thích thú với
những quy tắc mà nó có một xác suất cao hơn xác suất tối thiểu. Xác suất tối thiểu
không có tác động trên itemsets, nhưng nó có ảnh hưởng đến qui tắc.
Chú ý : Thậm chí chúng ta không đề cập đến xác suất của một itemset. Ta có thể sử
dụng công thức sau:
Probability ({A, B}) = NumberofTransactions (A, B)/TotalNumberofTransactions
SVTH: Hoàng Thị Thu-104102128
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 23
Tid Mặt hàng
mua
1 A, B, C
2 A, C
3 A, D
4 B, E ,F
Giả sử min support = 50% và min confidence = 50%
Tập phổ biến Độ tin cậy
{A} 3 =75%
{B} và {C} 2=50%
{D} ,{E} và {F} 1=25%
{A,C} 2=50%
{A,B}, {A,D},{B,C},
{B,E} và {B,F}
1=25%
Chúng ta có luật A→C [50%,66.6%] và C→A[50%,100%]
2.4. Importance(tầm quan trọng)
Importance cũng được coi là một điểm đáng quan tâm hay phần nâng cao
trong một vài tài liệu. Importance có thể dùng để xử lý những itemset và những quy
tắc. Importance của một itemset được thể hiện qua công thức sau :
Importance ({A,B}) = Probability (A, B)/(Probability (A)* Probability(B))
Nếu importance = 1, A và B là các item độc lập. Có nghĩa là lượng bán của sản
phẩm A và lượng bán của sản phẩm B là 2 trường hợp độc lập. Nếu importance < 1,
thì A và B không tương quan. Nghĩa là nếu một khách hàng mua A, thì không chắc
SVTH: Hoàng Thị Thu-104102128
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 24
anh ấy sẽ mua B. Nếu importance >1, thì A và B chắc chắn tương quan với nhau. Điều
này có nghĩa là một khách hàng mua A, thì chắc chắn anh ấy cũng sẽ mua B.
Importance (A => B) = log (p(B|A)/p(B|not A))
Một importance = 0 nghĩa là ở đây không có sự kết hợp giữa A và B. Một điểm
Importance xác thực có nghĩa là xác suất của B tăng lên khi A là true. Điểm
importance không xác thực nghĩa là xác suất của B giảm khi A là true.
Bảng 3.1 đưa ra những điểm tương quan của Sandwich và Hambuger được lấy
từ một cơ sở dữ liệu mua bán. Mỗi giá trị khối đặc trưng cho số lượng giao dịch.
Chẳng hạn, lấy ra 5 trong số 100 giao dịch buôn bán bao gồm một khách hàng mua cả
Sandwich và Hambuger.
Bảng 3.1 Đếm sự tương quan của Sandwich và Hambuger
Hambuger not Hambuger TOTAL
Sandwich 5 15 20
Not Sandwich 65 15 80
Total 70 30 100
Trong những điều sau đây, chúng ta sẽ dùng những định nghĩa trước đó để tính
toán Support, probability (xác suất), and importance của itemsets và những luật liên
quan đến Sandwich và Hambuger:
Support ({Hambuger }) = 70
Support ({Sandwich }) = 20
Support ({Hambuger , Sandwich }) = 5
Probability ({Hambuger }) = 70/100 = 0.7
Probability ({Sandwich }) = 20/100 = 0.2
Probability ({Hambuger , Sandwich }) = 5/100 = 0.05
Probability (Hambuger | Sandwich ) = 5/20 = 0.4
SVTH: Hoàng Thị Thu-104102128
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 25
Probability (Sandwich | Hambuger ) = 5/70 = 0.071
Importance ({Hambuger , Sandwich }) = 0.05/ (0.7*0.2) = 0.357
Từ Importance của itemset { Hambuger, Sandwich}=0.357 < 1, chúng ta có thể thấy
rằng Hambuger và Sandwich không tương quan với nhau tức là không xảy ra với một
số trường hợp khách hàng vừa mua Hambuger và mua cả Sandwich.
Chú ý: Tạo các tập phổ biến luôn chậm hơn và phải sử dụng support. Việc tạo các luật
kết hợp từ các tập phổ biến thì nhanh hơn và phải sử dụng độ tin cậy (confidence).
2.5 Các dạng luật kết hợp
2.5.1 Luật Boolean: luật liên quan đến mối kết hợp giữa có xuất hiện và không
xuất hiện của các phần tử.
Ví dụ: Khách có mua mặt hàng A hay không mua mặt hàng A?
2.5.2 Luật định lượng: luật có liên quan đến mối kết hợp giữa các phần tử hay
các thuộc tính định lượng ( tuổi, thu nhập, chiều cao, cân nặng v.v…).
2.5.3 Luật một chiều: Các thuộc tính trong luật chỉ qui về một đại lượng.
Ví dụ: Mua Bia, mua Khoai tây→ mua Bánh mì
2.5.4 Luật nhiều chiều: Các thuộc tính trong luật qui về hai hay nhiều đại lượng.
Ví dụ: Quốc gia=Pháp =>thu nhập =cao [50%,100%]
2.5.5 Luật 1 cấp: Mối kết hợp giữa các phần tử hay thuộc tính của cùng một
cấp. VD: Bia, Khoai tây chiên →Bánh mì[0.4%,52%]
2.5.6 Luật nhiều cấp: Mối kết hợp giữa các phần tử hay thuộc tính của nhiều
cấp khác nhau. VD: Bia:Heneiken, Khoai tây chiên→Bánh mì[0.1%,74%]
3. Cách sử dụng Microsoft Association Rules
3.1. Finding Frequent Itemsets (Tìm những itemset phổ biến)
Finding frequent itemset là phần cốt lõi của việc sử dụng thuật toán kết hợp.
Trước tiên cần chỉ định ngưỡng phổ biến khi sử dụng tham số minimum_Support,
SVTH: Hoàng Thị Thu-104102128
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 26
ví dụ, minimum_support= 2%. Điều này có nghĩa là ta quan tâm đến việc phân tích
riêng những items này khi nó xuất hiện í...
 

Các chủ đề có liên quan khác

Top