heomay_7

New Member

Download miễn phí Khóa luận Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng





Mục lục
Lời mở đầu. 1
Chương 1. Khái quát vềquảng cáo trực tuyến. 3
1.1. Giới thiệu vềquảng cáo. 3
1.2. Quảng cáo trực tuyến. 4
1.2.1. Tốc độtăng trưởng và thịphần. 4
1.2.2. Các hình thức quảng cáo trực tuyến. 5
1.3. Quảng cáo trực tuyến ởViệt Nam. 6
1.3.1. Tổng quan vềquảng cáo trực tuyến ởViệt Nam. 7
1.3.2. Những tài nguyên chưa được khai thác và thịtrường quảng cáo trực tuyến. 10
1.4. Quảng cáo thông qua tìm kiếm. 13
Chương 2. Các phương pháp quảng cáo thông qua tìm kiếm. 16
2.1. Mô hình trích xuất từkhóa trong nội dung trang web. 16
2.2. Mô hình so khớp với tập từvựng mởrộng (impedance coupling). 17
2.3. Mô hình tối ưu xếp hạng với thuật toán di truyền (Genetic Programming). 18
2.4. Mô hình quảng cáo sửdụng phản hồi liên quan. 19
2.5. Mô hình ước lượng CTR (Click Through Rate). 21
2.6. Mô hình tìm kiếm và xếp hạng sửdụng chủ đề ẩn trong quảng cáo theo ngữcảnh. 22
Chương 3. Hệthống quảng cáo trực tuyến sửdụng xếp hạng và chủ đề ẩn. 25
3.1 Xếp hạng. 25
3.1.1 Xếp hạng trong máy tìm kiếm. 25
3.1.2 Học xếp hạng và SVM Rank. 26
3.1.3 Các phương pháp đánh giá xếp hạng. 30
3.2 Chủ đề ẩn. 33
3.2.1 Latent Dirichlet Allocation (LDA). 34
3.2.2 Mô hình sinh trong LDA. 35
3.2.3 Ước lượng tham sốvà suy luận. 36
3.3 Mô hình quảng cáo trực tuyến hướng câu truy vấn với sựgiúp đỡcủa phân tích chủ đề
và kỹthuật tính hạng. 39
3.3.1 Mô tảbài toán. 39
3.3.2 Mô hình tổng quan. 40
3.3.3 Xác định đặc trưng cho mô hình. 41
Chương 4. Thực nghiệm và đánh giá. 43
4.1. Dữliệu. 43
4.2. Môi trường thực nghiệm. 43
4.2.1 Cấu hình phần cứng. 43
4.2.2 Các công cụ được sửdụng. 44
4.3. Quá trình thực nghiệm. 45
4.3.1. Tiền xửlý dữliệu. 45
4.3.2. Thu thập thông tin từcác URL có được. 46
4.3.3. Véc tơhóa dữliệu. 47
4.3.4. Thiết kếthực nghiệm. 47
4.4. Kết quảthực nghiệm. 48
4.5. Đánh giá kết quảthực nghiệm. 50
Kết luận. 52
Tài liệu tham khảo. 53



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

ấn dài bao gồm nhiều từ
khóa. Yih và các cộng sự [30] đã đề xuất một mô hình học giám sát cho phép trích xuất
các từ khóa trong nội dung trang web. Tiến hành học từ một tập các trang web đã được
định nghĩa các từ khóa từ trước, họ xây dựng một bộ phân lớp sử dụng học máy với thuật
toán hồi quy logic (logistic regression).
Để xác định những từ khóa và cụm từ mô tả chính xác nhất về trang web họ sử dụng
một vài phương pháp và tiến hành thực nghiệm để tìm ra phương pháp đem lại kết quả tốt
nhất. Ba phương pháp được đưa ra đó là: MoS, MoC và DeS. M (Monolithic) nghĩa là sử
dụng toàn bộ cụm từ trong trích chọn. D (Decomposed) xem mỗi từ trong cụm như một
cá thể riêng biệt. S (Separate) là coi mỗi từ hay cụm từ bất kể giống nhau hay khác nhau
như các cá thể riêng biệt, và C (Combined) kết hợp các từ, cụm từ giống nhau làm một.
Một điểm quan trọng trong công trình của họ đó là việc sử dụng 7.5 triệu truy vấn từ
query logs của MSN [36] như một đặc trưng cho quá trình trích chọn, cùng với đó là 11
16
đặc trưng khác như tần suất xuất hiện của từ khóa, đặc trưng thuộc về ngôn ngữ học (pos
tagging), đặc trưng kiểm tra từ có được viết hoa hay không, đặc trưng về siêu văn bản (từ
có nằm trong một liên kết hay không), tiêu đề trang, đặc trưng về độ dài các cụm từ, các
câu,…
Trong thực nghiệm, họ sử dụng 828 trang web được lấy từ Internet Archive [34] để
sử dụng cho quá trình học và kiểm thử hệ thống. Kết quả cho thấy hệ thống MoC (các
cụm từ tương đương được kết hợp làm một) đem lại kết quả tốt nhất, trong khi đó MoS
đem lại kết quả thấp nhất. Ngoài ra, hệ thống DeS (xem mỗi từ như một cá thể riêng biệt)
đem lại kết quả thấp hơn so với hệ thống Monolothic(xem mỗi cụm từ như một cá thể
riêng biệt). Độ chính xác của hệ thống tốt nhất là 30.06% và của hệ thống tồi nhất là
13.01% .
Để xác định sự đóng góp của mỗi đặc trưng, họ tiến hành thực nghiệm trên cùng
một hệ thống với các đặc trưng được thêm vào lần lượt. Kết quả chỉ ra rằng, đặc trưng
query log và tần xuất xuất hiện của từ khóa đóng vai trò quan trọng nhất.
Nghiên cứu của Yih và các cộng sự [30] cho thấy một hướng tiếp cận khác của
quảng cáo theo ngữ cảnh. Hệ thống của họ cho phép xếp hạng các quảng cáo dựa trên
những từ khóa trích xuất ra được từ trang web. Tuy nhiên độ phù hợp của các quảng cáo
dựa trên các từ khóa này vẫn chưa được kiểm chứng qua thực nghiệm.
2.2. Mô hình so khớp với tập từ vựng mở rộng (impedance coupling)
Một vấn đề của quảng cáo theo ngữ cảnh, đó là sự khác biệt về từ vựng giữa trang
web và các quảng cáo. Ribeiro Neto và các cộng sự [24] đã tập trung vào việc giải quyết
vấn đề này bằng cách mở rộng tập từ vựng của các trang web.
Nhìn chung, một quảng cáo thường ngắn, cô đọng và tập trung vào một chủ đề
chính. Tuy nhiên, một trang web lại có nội dung lớn hơn và thuộc một không gian ngữ
cảnh lớn hơn. Một trang web có thể nói về rất nhiều chủ đề và với các từ khóa khác nhau.
Vấn đề tìm kiếm những quảng cáo phù hợp với một trang web sử dụng những chủ đề có
trong nội dung trang đang là một vấn đề cần được quan tâm.
Ribeiro và các cộng sự [24] đã khảo sát 10 phương pháp so khớp các quảng cáo và
trang web. Họ tiến hành thực nghiệm với một cơ sở dữ liệu lớn trên 93 nghìn quảng cáo
và 100 trang web.
17
Với 5 phương pháp đầu tiên, họ so sánh các trang web và quảng cáo dựa vào mô
hình véc tơ. Hạng của mỗi quảng cáo được tính dựa trên độ tương đồng cosin giữa quảng
cáo và trang web. Các đặc trưng được sử dụng là tiêu đề, mô tả và các từ khóa quảng cáo.
Phương pháp tốt nhất trong những phương pháp này là AAK, “so khớp sử dụng các từ
khóa quảng cáo xuất hiện trong nội dung trang web”, kết quả của phương pháp này được
sử dụng để so sánh với các phương pháp “impedance coupling”.
Như đã giới thiệu ở trên, có một sự khác biệt lớn giữa tập từ vựng của trang web và
quảng cáo. Để giải quyết vấn đề này, Ribeiro và các cộng sự [24] mở rộng tập từ vựng
của trang web với những từ khóa lấy từ các trang web có nội dung tương tự sử dụng mô
hình Bayes. Những từ khóa mở rộng này có thể xuất hiện trong tập từ khóa của quảng cáo
và làm tăng hiệu quả của hệ thống. Họ sử dụng 5 phương pháp so khớp khác nhau gọi là
các phương pháp “impedance coupling”.
Trong thực nghiệm, họ sử dụng một cơ sở dữ liệu với 6 triệu trang web để phục vụ
cho việc mở rộng tập từ vựng. Kết quả thu được khi sử dụng các nội dung đã được mở
rộng tốt hơn so với phương pháp AAK ở trên. Phương pháp tốt nhất được đưa ra đó là so
khớp sử dụng nội dung trang web mở rộng và nội dung của trang web được quảng cáo trỏ
tới. Thực nghiệm của Ribeiro-Neto và các cộng sự đã chứng tỏ rằng, việc giảm sự khác
biệt về tập từ vựng giữa trang web và quảng cáo có thể hỗ trợ tốt cho việc tìm kiếm quảng
cáo phù hợp với ngữ cảnh.
2.3. Mô hình tối ưu xếp hạng với thuật toán di truyền (Genetic Programming)
Từ những nghiên cứu đã có được [24], Lacerda và các cộng sự [22] đã đưa ra một
hướng tiếp cận dựa trên thuật toán di truyền để tối ưu hàm xếp hạng. Sử dụng các đặc
trưng khác nhau như từ khóa, tần suất xuất hiện của từ, độ dài văn bản và kích thước tập
dữ liệu, bằng phương pháp học máy, họ xây dựng một hàm so khớp nhằm tối ưu độ phù
hợp giữa trang web và các quảng cáo. Hàm này được thể hiện dưới dạng cây với nút là
các phép toán và các đặc trưng là các lá. Sử dụng tập dữ liệu học và đánh giá tương tự
như ở [24], mô hình này đem lại kết quả tốt hơn so với phương pháp tốt nhất được mô tả
ở đó là 61.7%.
18
2.4. Mô hình quảng cáo sử dụng phản hồi liên quan
Dựa trên những nghiên cứu về xử lý truy vấn và mở rộng câu truy vấn, Andrei
Z.Broder và các cộng sự [11] đã đưa ra mô hình quảng cáo trên máy tìm kiếm sử dụng
phản hồi liên quan. Với một truy vấn đầu vào gọi là truy vấn gốc, Andrei Z.Broder tiến
hành tìm kiếm trên các máy tìm kiếm và thu thập một số kết quả trong danh sách các kết
quả đầu tiên. Từ truy vấn gốc và những kết quả đó, xây dựng một truy vấn mới gọi là truy
vấn quảng cáo - và tiến hành tìm kiếm trên tập quảng cáo đã có bằng truy vấn này. Cách
tiếp cận này cho phép khai thác những thông tin mở rộng thu được từ máy tìm kiếm nhằm
tạo ra những đặc trưng giàu thông tin hơn cho việc tìm kiếm. Hơn nữa, việc sử dụng
những đặc trưng mô tả toàn bộ quảng cáo tốt hơn so với việc chỉ sử dụng những từ khóa
riêng biệt của nó, điều này còn giúp cho người quảng cáo không phải xác định trước các
từ khóa của quảng cáo.
Truy vấn quảng cáo và các quảng cáo được họ biểu diễn thông quang 3 loại đặc
trưng chính: từ khóa, phân lớp và các cụm từ Prisma.
- Từ khóa: họ tập hợp tất cả các từ khóa riêng biệt có trong tập quảng cáo, lựa chọn
số từ khóa phù hợp, sử dụng mỗi từ khóa này như một đặc trưng sau đ...
 

Các chủ đề có liên quan khác

Top