centaur7208

New Member

Download miễn phí Xây dựng bộ ngữ liệu để đánh giá bằng Tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin





Tuy nhiên, đa số các hệ thống làm cho Tiếng Anh nên mã hóa của hệ thống này không hỗ trợ Tiếng Việt (mặc dù tiếng Việt được mã hóa bằng Unicode), vì vậy muốn thực thi các hệ thống tìm kiếm cho Tiếng Việt bắt buộc chúng tôi phait thực hiện chuyển mã cho cho chương trình tìm kiếm





Để tải tài liệu này, vui lòng Trả lời bài viết, Mods sẽ gửi Link download cho bạn ngay qua hòm tin nhắn.

Ketnooi -


Ai cần tài liệu gì mà không tìm thấy ở Ketnooi, đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:


là phần không thể thiếu.
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 60
Khác với tiếng Anh, Pháp (thường được dùng trong các hệ thống tìm kiếm
thống tin phổ biến), tiếng Việt có những đặc thù riêng, đặc biệt trong việc xác định
từ tiếng Việt.
2.3.1. Từ
2.3.1.1. Quan niệm về từ
Theo [10 ], thì tổng hợp từ các sách ngôn ngữ học đại cương, sách ngữ pháp và
sách về từ vựng học, chúng tui xin trình bày lại một số định nghĩa điển hình về từ
như sau:
♦ Từ là một hình thái tự do nhỏ nhất.
♦ Từ là đơn vị ngôn ngữ có tính hai mặt : âm và nghĩa. Từ có khả năng độc
lập về cú pháp khi sử dụng trong lời.
♦ Từ là đơn vị nhỏ nhất có nghĩa của ngôn ngữ, được vận dụng độc lập, tái
hiện tự do trong lời nói để xây dựng nên câu”. Đây cũng chính là định nghĩa
mà trong ngôn ngữ học đại cương hay sử dụng.
Từ các định nghĩa trên, ta rút ra những nét đặc trưng chính của từ như sau:
Về hình thức : từ phải là một khối về cấu tạo (mặt chính tả, ngữ âm)
Về nội dung : từ phải có ý nghĩa hoàn chỉnh.
Về khả năng : từ có khả năng hoạt động tự do và độc lập về cú pháp.
Ngoài ra, ta còn gặp một số thuật ngữ khác trong ngôn ngữ học đại cương mà
S.E.Jakhontov [ 11] đưa ra để nhận diện từ, như:
1. Từ ngữ âm: đó là những đơn vị được thống nhất với hiện tượng ngữ âm nào
đó. Đối với Việt ngữ, đó chính là những âm tiết, hay còn gọi là “tiếng”, “tiếng một
2. Từ chính tả: đó là những khoảng cách giữa 2 chỗ trên văn tự; tức là những
đơn vị được viết liền thành khối, đối với tiếng Việt, đó chính là “chữ”
3. Từ hoàn chỉnh: đó là những cấu trúc ổn định, không thể tách rời hay hoán
vị các thành tố của chúng.
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 61
4. Từ từ điển học: đó là đơn vị mà căn cứ vào đặc điểm ý nghĩa của nó phải
xếp riêng trong từ điển.
5. Từ biến tố: đó là những đơn vị luôn luôn gồm 2 phần: gốc từ (biểu thị ý
nghĩa đối tượng) và phụ tố (biểu thị mối liên hệ với các từ khác trong câu). Đây
còn gọi là từ ngữ pháp.
Về phương diện xử lý tự động bằng máy tính, thì từ chính tả và từ từ điển là hai
loại được nhận diện dễ nhất và được sử dụng nhiều nhất trong tài liệu này.
2.3.1.2. Quan niệm về hình vị
Trong ngữ pháp truyền thống thì hình vị được xem là thành tố trực tiếp để tạo nên
từ. Do đó, hình vị được xem như là đơn vị tế bào gốc, đơn vị tế bào của ngữ pháp,
và còn được gọi là từ tố. Chính vì vậy, mà việc nhận diện hình vị phải là bước đi
đầu tiên trong việc nhận diện từ. Để nhận diện hình vị, Jakhontov đưa ra cách
phân xuất câu đến mức tối giản, gọi là từ câu, hay hình vị; ngoài ra, giới ngôn ngữ
học hay sử dụng phương pháp lập hình vuông Greenberg để đối sánh. Ví dụ: đối
sánh “có lý” và “có ý”, ta tách được thành 3 hình vị: “có”, “lý” và “ý”.
Trước hết ta hãy xem lại quan niệm về hình vị (morpheme) trong ngôn ngữ học
đại cương: theo Baudouin de Courtenay thì hình vị là bộ phận nhỏ nhất có nghĩa
của từ, còn theo Bloomfield thì hình vị là đơn vị ngôn ngữ nhỏ nhất có nghĩa.
Nhưng quan niệm thường thấy trong ngôn ngữ học đại cương là: “hình vị là đơn vị
ngôn ngữ nhỏ nhất có nghĩa và/hay có giá trị (chức năng) về mặt ngữ pháp”.
“Từ” được cấu tạo bằng một hình vị hay nhiều hình vị kết hợp với nhau theo
những nguyên tắc nhất định. Ví dụ: anti-virus (chống vi rút). Hình vị bao gồm hai
loại: hình vị tự do (như: work, home,…) và hình vị hạn chế (như: -ed, -less,…).
Trong hình vị hạn chế gồm hình vị biến tố (như: work-ed) và hình vị phái sinh
(như: home-less).
2.3.1.3. Khái niệm về cấu tạo từ
Từ được cấu tạo nhờ các hình vị (morpheme).
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 62
Ví dụ: anti + poison = antipoison. Hình vị là đơn vị ngôn ngữ nhỏ nhất có nghĩa
và/hay có giá trị (chức năng) về mặt ngữ pháp.
Hình vị gồm các loại :
- Hình vị tự do : tự nó xuất hiện với tư cách là một từ độc lập, ví dụ : house, man,
black, nhà, người, đen...
- Hình vị hạn chế : xuất hiện trong tư thế đi kèm, phụ thuộc vào hình vị khác, nó
bao gồm các hình vị biến tố và hình vị phát sinh.
Ví dụ : -ing, -ed, -s, -ness, ...
Để cấu tạo từ, người ta dùng các cách :
- Dùng một hình vị.
- Tổ hợp 2 hay nhiều hình vị.
- Thêm phụ tố (tiền, trung, hậu tố) vào.
- Láy.
2.3.2. Ranh giới từ
Nhận diện ranh giới từ (word boundary identification) hay còn gọi là phân
đoạn từ (word segmentation) là một công đoạn tiên quyết đối với hầu hết các hệ
xử lý ngôn ngữ tự nhiên. Đối với các ngôn ngữ biến hình (tiếng Anh, tiếng Nga,...)
thì ranh giới từ được xác định chủ yếu bằng khoảng trắng hay dấu câu, còn đối với
các ngôn ngữ đơn lập (trong đó có tiếng Việt) thì khoảng trắng không thể là tiêu
chí để nhận diện từ. Muốn xác định được ranh giới từ trong các ngôn ngữ này,
chúng ta phải dựa vào các thông tin ở mức cao hơn, như hình thái, từ pháp, cú
pháp, hay ngữ nghĩa và thậm chí cả ngữ dụng.
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 63
Chương 3 : THIẾT KẾ VÀ CÀI ĐẶT
3.1. Xây dựng bộ ngữ liệu dùng để đánh giá
Như chúng tui đã trình bày trong các phần trên, chúng tui xây dựng bộ ngữ liệu
dùng để đánh giá theo tiêu chuẩn của TREC. Việc xây dựng gồm 3 phần sau :
3.1.1. Xây dựng kho ngữ liệu bằng tiếng Việt
Chúng tui xây dựng kho ngữ liệu dùng để đánh giá bằng cách thu thập tài liệu
từ các báo điện tử, chẳng hạn : www.tuoitre.com.vn, www.thanhnien.com.vn,
www.vnexpress.net . Các tài liệu này bao gồm rất nhiều lĩnh vực khác nhau gồm
có khoa học kỹ thuật, kinh tế, giáo dục, văn hóa, thời sự … Kho ngữ liệu của
chúng tui cho đến nay đã có gần 15.000 tài liệu, với kích thước lưu trữ là 34 MB.
Tuy nhiên, các tài liệu này ở dưới dạng thô, chưa được chuẩn hóa nên bước
quan trọng nhất là chuẩn hóa ngữ liệu.
3.1.1.1. Chuẩn hóa ngữ liệu
Chuẩn hóa ngữ liệu là chuẩn hoá thành một dạng, một tiêu chuẩn duy nhất.
Việc chuẩn hoá ngữ liệu gồm các nhiệm vụ sau:
3.1.1.1.1. Chuẩn hóa dạng ngữ liệu
Chuẩn hoá dạng ký tự: đưa về đúng dạng điện tử, định dạng tập tin
(từ các định dạng tập tin khác nhau sẽ chuyển về txt, loại bỏ những
thứ không phải là văn bản), đúng mã ký tự (chuyển về mã Unicode).
Chuẩn hoá tập tin: mỗi tập tin ngữ liệu sẽ gồm một số câu (khoảng
2000 từ), mỗi câu có thể nằm trên một dòng, hết câu, ngắt xuống
dòng cứng sau dấu chấm câu. Mỗi đầu câu, sẽ có một mã số định
danh để cho biết thông tin về văn bản, như: ngôn ngữ (Anh, Việt,
Pháp, Hoa, …), lĩnh vực của tập tin (văn học, tin học, kinh tế, thể
thao,…), tiểu loại (như: trong văn học có truyện ngắn, tiểu thuyết,
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 64
thơ, ký, …) và thông tin về số hiệu câu (câu thứ mấy trong tập tin),
số hiệu văn bản (văn bản thứ mấy trong tiểu loại/lĩnh vực đang xét).
Chuẩn hoá chính tả: xem xét biến thể hình thái chính tả,...

 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
D điều chỉnh cục bộ quy hoạch chung xây dựng thành phố uông bí đến năm 2030, tầm nhìn đến năm 2050 Văn hóa, Xã hội 0
D Tổ chức kiểm toán nội bộ tại công ty cổ phần xây dựng xây lắp Đà Nẵng (Coxiva) Kiến trúc, xây dựng 0
D Xây dựng đội ngũ cán bộ, công chức cấp xã ở huyện Thạch Hà đáp ứng yêu cầu cải cách hành chính nhà nước hiện nay Văn hóa, Xã hội 0
D Nâng cao hiệu quả sử dụng vốn ngân sách Nhà nước đầu tư xây dựng hạ tầng giao thông đường bộ trên địa bàn Huyện Quảng Trạch, Quảng Bình Luận văn Kinh tế 0
D Nâng cao hiệu quả sử dụng vốn ngân sách nhà nước cho đầu tư xây dựng cơ sở hạ tầng giao thông đường bộ Thành phố Đông Hà, tỉnh Quảng Trị Luận văn Kinh tế 0
D Thực trạng sử dụng vốn ngân sách nhà nước trong đầu tư xây dựng kết cấu hạ tầng giao thông đường bộ ở huyện quảng ninh, tỉnh quảng bình giai đoan 2014 Luận văn Kinh tế 0
D nâng cao chất lượng đội ngũ cán bộ, công chức tại sở xây dựng tỉnh thái nguyên Văn hóa, Xã hội 0
D Sáng kiến kinh nghiệm Xây dựng và sử dụng bộ câu hỏi định hướng bài học phần dẫn xuất Hidrocacbon Hó Luận văn Sư phạm 0
P Xây dựng chương trình trao đổi thông điệp trong mạng nội bộ Luận văn Kinh tế 0
H Nghên cứu và xây dựng chương trình ứng dụng giao tiếp VIDEO trong môi trường mạng nội bộ Luận văn Kinh tế 0

Các chủ đề có liên quan khác

Top