toemlemlinh_bt

New Member

Download miễn phí Về xử lý tiếng Việt trong công nghệ thông tin





Có thểnói xửlý ngôn ngữtự động trên máy tính là một trong những vấn đềkhó nhất của CNTT.
Cái khó nằm ởchỗlàm sao cho máy được hiểu ngôn ngữcon người, từviệc hiểu nghĩa từng từ
trong mỗi hoàn cảnh cụthể, đến việc hiểu nghĩa một câu, rồi hiểu cảvăn bản. Ta lấy lại thí dụ
của Marvin Minsky (1992), một cây đa cây đềcủa ngành trí tuệnhân tạo (artificial intelligence):
“Xét từ“sợi dây” chẳng hạn. Ngày nay không một máy tính nào có thểhiểu nghĩa từnày như
con người. Còn chúng ta ai cũng biết có thểdùng sợi dây đểkéo một vật, nhưng không thể đẩy
một vật bằng sợi dây này. Ta có thểgói một gói hàng hay thảdiều bằng một sợi dây, nhưng
không thể ăn sợi dây. Trong vài phút, một đứa trẻnhỏcó thểchỉra hàng trăm cách dùng hay
không dùng một sợi dây, nhưng không máy tính nào có thểlàm việc này.”



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

nous réunissons ici pour discuter le traitement de langue et de parole
vietnamienne.”
- “Mы встрачаемся здесь сегодня, чтобы говорить о вьетнамском языке и обработке
речи.”
- “今日我々はここに集まりベトナム語処理について議論します.”
- “오늘 우리는 여기에 모여서 베트남어와 발언처리에 대하여 의론하겠습니다.”
Và giả sử chúng ta không ai biết cả năm thứ tiếng trên, nhưng tò mò muốn biết các câu đó nói gì.
Nếu có ai đó dịch, hay có một chương trình máy tính dịch (biến đổi) chúng ra tiếng Việt, ta sẽ
hiểu nghĩa các câu trên đều là:
- “Hôm nay chúng ta gặp nhau ở đây để bàn về xử lý ngôn ngữ và tiếng nói tiếng Việt.”
Nếu các câu này được lưu trữ như các tệp tiếng Anh, Pháp, Nga, Nhật, Hàn và Việt như ta nhìn
thấy ở trên, ta có các dữ liệu “văn bản”. Nếu ai đó đọc các câu này, ghi âm lại, ta có thể chuyển
chúng vào máy tính dưới dạng các tệp các tín hiệu (signal) “tiếng nói”. Tín hiệu sóng âm của hai
âm tiết tiếng Việt có thể nhìn thấy như sau
Tuy nhiên, một văn bản thật sự (một bài báo khoa học chẳng hạn) có thể có đến hàng nghìn câu,
và ta không phải có một mà hàng triệu văn bản. Web là một nguồn dữ liệu văn bản khổng lồ, và
cùng với các thư viện điện tử − khi trong một tương gần các sách báo xưa nay và các nguồn âm
thanh được chuyển hết vào máy tính (chẳng hạn bằng các chương trình nhận dạng chữ, thu nhập
âm thanh, hay gõ thẳng vào máy) − sẽ sớm chứa hầu như toàn bộ kiến thức của nhân loại. Vấn
đề là làm sao “xử lý” (chuyển đổi) được khối dữ liệu văn bản và tiếng nói lớn này qua dạng
khác để mỗi người có được thông tin và tri thức cần thiết từ chúng? Điều này càng quan trọng
khi đa số nguồn tri thức quý giá này lại bằng tiếng nước ngoài và đa số người Việt chúng ta còn
ít nghe hay đọc được chúng.
Có thể hình dung phần mềm gõ chữ Việt cho phép ta trực tiếp tạo ra một tệp văn bản trên máy
tính (như chúng tui đang gõ máy tính để viết bài này), còn chương trình nhận dạng chữ
4
VnDOCR cho phép ta biến đổi một văn bản in trên giấy thành một tệp văn bản trên máy tính.
Tuy nhiên, các sản phẩm trên vẫn chưa động chạm đến cốt lõi của xử lý ngôn ngữ. Theo nghĩa
“xử lý ngôn ngữ” nêu ở trên − tức biến đổi dữ liệu ngôn ngữ − có thể nêu ra một số bài toán tiêu
biểu của xử lý ngôn ngữ với các mức độ khác nhau về xử lý và sử dụng ngôn ngữ tự nhiên của
con người:
1. Nhận dạng tiếng nói (speech recognition): từ sóng tiếng nói, nhận biết và chuyển chúng
thành dữ liệu văn bản tương ứng [Jelinek, 1998], [Jurafsky and Martin, 2000].
2. Tổng hợp tiếng nói (speech synthesis): từ dữ liệu văn bản, phân tích và chuyển thành tiếng
người nói [Jelinek, 1998], [Jurafsky and Martin, 2000].
3. Nhận dạng chữ viết (optical character recognition, OCR): từ một văn bản in trên giấy, nhận
biết từng chữ cái và chuyển chúng thành một tệp văn bản trên máy tính.
4. Dịch tự động (machine translation): từ một tệp dữ liệu văn bản trong một ngôn ngữ (tiếng
Anh chẳng hạn), máy tính dịch và chuyển thành một tệp văn bản trong một ngôn ngữ khác
(tiếng Việt chẳng hạn) [Dorr et al., 2000], [Nagao, 1989].
5. Tóm tắt văn bản (text summarization): từ một văn bản dài (mười trang chẳng hạn) máy tóm
tắt thành một văn bản ngắn hơn (một trang) với những nội dung cơ bản [Mani and
Maybury, 1999]
6. Tìm kiếm thông tin (information
retrieval): từ một nguồn rất nhiều tệp
văn bản hay tiếng nói, tìm ra những
tệp có nội dung liên quan đến một
vấn đề (câu hỏi) ta cần biết (hay trả
lời) [Baeza-Yates and Ribeiro-Neto,
1999].. Điển hình của công nghệ này
là Google, một hệ tìm kiếm thông tin
trên Web, mà hầu như chúng ta đều
dùng thường xuyên. Cần nói thêm
rằng mặc dù hữu hiệu hàng đầu như
vậy, Google mới có khả năng cho
chúng ta tìm kiếm câu hỏi dưới dạng
các từ khóa (keywords) và luôn “tìm”
cho chúng ta rất nhiều tài liệu không
liên quan, cũng như rất nhiều tài liệu
liên quan đã tồn tại thì Google lại tìm
không ra. Hình bên chỉ ra một màn
hình của Google đưa ra các trang Web liên quan đến câu hỏi “protein-protein interaction”
5
7. Trích chọn thông tin
(information extraction):
từ một nguồn rất nhiều
tệp văn bản hay tiếng nói,
tìm ra những đoạn bên
trong một số tệp liên
quan đến một vấn đề
(câu hỏi) ta cần biết hay
trả lời. Hình bên phải
minh họa một kết quả
trích chọn thông tin với
cùng câu hỏi “protein-protein interaction”. Một hệ trích chọn thông tin có thể “lần” vào
từng trang Web liên quan, phân tích bên trong và trích ra các thông tin cần thiết, nói gọn
trong tiếng Anh để phân biệt với tìm kiếm thông tin là “find things but not pages” [Cohen
and McCallum, 2003].
8. Phát hiện tri thức và khai phá dữ liệu văn bảm (knowledge discovery and text data
mining): Từ những nguồn rất nhiều văn bản thậm chí hầu như không có quan hệ với nhau,
tìm ra được những tri thức trước đấy chưa ai biết. Đây là một vấn đề rất phức tạp và đang
ở giai đoạn đầu của các nghiên cứu trên thế giới [Berry, 2004], [Sirmakessis, 2004].
Còn nhiều bài toán và công nghệ xử lý ngôn ngữ khác, như giao diện người máy bằng ngôn ngữ
tự nhiên, các hệ hỏi đáp, các hệ sinh ra ngôn ngữ, …
Ứng dụng của công nghệ xử lý ngôn ngữ hết sức phong phú. Có thể lấy vài thí dụ gần đây. Tin
trên Internet ngày 21/4/2005, hãng Samsung đưa ra thị trường điện thoại di động P207 có thể
nhận biết được các câu nói đơn giản của người sử dụng điện thoại di động như “Hãy gọi cho tôi”
hay “tui sẽ gọi lại”, rồi chuyển chúng thành dạng văn bản (tin nhắn) cho người dùng điện thoại
di động gửi nhắn tin. Đây là một ứng dụng của QuickPhrase trong VoiceSignal Technologies, tất
nhiên là cho tiếng Hàn. Ta có thể hình dung đây là việc ghi lại tín hiệu một câu nói đơn giản, so
sánh tín hiệu này với tín hiệu của một rất nhiều câu nói đã được ghi trước rồi chọn câu gần nhất
( 3B9D D713/). Tin ngày
22/4/2005 (
cho biết công ty CombiWith (Nhật) công bố sắp tung ra các bức ảnh biết nói để cho những người
cô đơn ở Nhật có thể có ảnh của người thân biết nói với chính giọng của họ. Có thể hình dung
đây chính là việc tổng hợp tiếng nói của người trong ảnh dựa trên việc học giọng nói từ rất nhiều
mẫu câu nói của người đó. Tất nhiên, đây lại là tiếng Nhật vì công nghệ cho tiếng Việt sẽ rất
khác. Cũng vậy, có rất nhiều phần mềm dịch tự động trên Web, như Babel Fish Translation của
AltaVista ( dịch Anh-Nhật, Nhật-Anh bởi Excite bản tiếng Nhật
6
( hay Language Tools dịch nhiều thứ tiếng của Google
(
Có thể phân loại các bài toán:
- 1-3 thuộc lĩnh vực xử lý tiếng nói và xử lý ảnh (speech and image processing),
- 4-5 thuộc lĩnh vực xử lý văn bản (text processing),
- 6-8 thuộc lĩnh vực khai phá văn bản và Web (text and Web mining).
Phân loại này là tương đối, vì các lĩnh vực trên có rất nhiều phần chung nhau. Về bản chất, xử lý
tiếng nói dựa hay ảnh trên các kỹ thuật phân tích và nhận dạng tín hiệu (signal processing and
recognition). Xử ...
 
Các chủ đề có liên quan khác

Các chủ đề có liên quan khác

Top