thoidi

New Member

Download miễn phí Đồ án Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản





MỤC LỤC

MỤC LỤC 9

DANH MỤC HÌNH.12

DANH MỤC BẢNG .13

DANH MỤC TỪ VIẾT TẮT.14

LỜI NOI ĐẦU .15

Chương 1: Giới thiệu đối sánh văn bản.17

1.1 Giới thiệu.17

1.2 Phân tách tài liệu thành các từ khóa (Filter).17

1.2.1 Các nghiên cứu về cấu trúc của các nhà nghiên cứu Việt Nam 17

1.2.2 Tách tài liệu thành các từ khóa.22

1.2.3 Giải pháp tách từ Tiếng Anh .23

1.2.4 Giải pháp cho Tiếng Việt .23

1.3 Các hệ thống gợi ý (recommender systems - RS) .25

1.3.1 Các khái niệm về Recommender System .25

1.3.2 Xử lý tài liệu tiếng Việt.26

1.3.3 Xử lý tài liệu theo ngữ nghĩa .27

Chương 2: Phương pháp phân tích ngữ nghĩa tiềm ẩn .30

2.1 Tiền xử lý.30

Phân nhóm văn bản.30

Phương pháp phân nhóm phân cấp.30

Phương pháp phân nhóm không phân cấp .30

2.2 Tách từ .30

2.2.1 Tiếng trong tiếng Việt.31

2.2.2 Từ trong tiếng Việt .31

2.2.3 Từ dừng và từ gốc.31

2.3 Các phương pháp tách từ phổ biến .32

2.3.1 Phương pháp Maximum Matching.32

2.3.2 TF-IDF Term Frequency – Inverse Document Frequency .33

2.3.3 Phương pháp Transformation – based Learning (TBL) .34

2.3.4 Mô hình tách từ bằng WFST và mạng Neural .34

2.3.5 Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và

thuật giải di truyền.35

2.4 Phương pháp phân tích ngữ nghĩa tiềm ẩn .3610

2.4.1 Giới thiệu.36

2.4.2 Khái niệm .37

2.4.3 Cách thức hoạt động .38

2.5 Đối sánh văn bản .46

2.5.1 Độ tương đồng.46

2.5.2 Độ tương đồng văn bản trong Tiếng Việt.49

2.6 Tính độ tương đồng cho toàn bộ văn bản .52

Chương 3: Bài toán áp dụng.53

3.1 Giới thiệu ngôn ngữ R.53

3.1.1 Giới thiệu R.53

3.1.2 Các lện trong gói phân tích ngữ nghĩa tiềm ẩn trong R .54

3.2 Cài đặt và chạy chương trình.57

3.2.1 Cài đặt.57

3.2.2 Chạy chương trình .

KẾT LUẬN .65

TÀI LIỆU THAM KHẢO .66





Để tải tài liệu này, vui lòng Trả lời bài viết, Mods sẽ gửi Link download cho bạn ngay qua hòm tin nhắn.

Ketnooi -


Ai cần tài liệu gì mà không tìm thấy ở Ketnooi, đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:


bảng mã Unicode, cũng như việc chọn Unicode cho bộ mã chuẩn tiếng Việt (nhân
đây cũng xin nói thêm, do chưa ý thức về chuẩn, rất nhiều cán bộ CNTT, nhiều cơ quan
nhà nước vẫn chưa chịu đổi thói quen cũ để dùng bộ mã chuẩn Unicode, một việc rất
quan trọng của xử lý tiếng Việt). Bảo tồn chữ Nôm trên máy tính cũng là một việc đầy
nỗ lực và nhiều ý nghĩa được nhiều người theo đuổi lâu nay, cần được nhà nước tiếp tục
ủng hộ lâu dài (
(b) Tiếp theo có thể kể đến các chương trình nhận dạng chữ Việt in (OCR: optical
character recognition), như hệ VnDOCR của Viện Công nghệ Thông tin, Viện Khoa học
và Công nghệ Việt Nam. Các chương trình nhận dạng chữ in nhằm chuyển các tài liệu
in trên giấy thành các tài liệu điện tử (dưới dạng các tệp văn bản trên máy tính).
(c) Các phần mềm hỗ trợ việc sử dụng tiếng nước ngoài, tiêu biểu là các từ điển
song ngữ trên máy tính, thí dụ như các từ điển điện tử của Lạc Việt đã được dùng rộng
rãi trên máy tính để tra cứu từ Anh-Việt, Việt-Anh. Điều ta cần phân biệt là các từ điển
điện tử này dành cho con người sử dụng, khác với từ điển điện tử dành cho máy tính sử
dụng trong xử lý ngôn ngữ tự nhiên (sẽ được đề cập ở phần sau).
(d) Các nỗ lực trong việc làm các phần mềm dịch Anh-Việt, Việt-Anh, chẳng hạn
như các hệ dịch EVTRAN và VETRAN.
(e) Một loại việc nữa là Việt hóa các phần mềm mà gần đây tiêu biểu là kết quả Việt
hóa Windows và Microsoft Office của Microsoft. Việc này có thể xem như việc “dịch”
các thông báo tiếng Anh cố định trong các phần mềm thành các thông báo tiếng Việt.
1.3.3 Xử lý tài liệu theo ngữ nghĩa
1.3.3.1 Đặt vấn đề
Trong xử lý ngôn ngữ tự nhiên, bài toán gán nhãn ngữ nghĩa hay còn gọi là “khử sự
nhập nhằng ngữ nghĩa của từ” là bài toán khó khăn nhất và cũng là bài toán trọng tâm
mà đến nay trên thế giới vẫn chưa giải quyết ổn thỏa. Hiện nay, có rất nhiều mô hình
với nhiều hướng tiếp cận khác nhau, chủ yếu là:
 Dựa trên trí tuệ nhân tạo (AI-based):
Đây là cách tiếp cận sớm nhất (1960) với những lý thuyết rất hay về mạng ngữ
nghĩa, khung ngữ nghĩa và các ý niệm nguyên thủy và các quan hện như IS-A, PART-
OF Tuy nhiên, do hầu hêt các tri thức về ngữ nghĩa trong cách tiếp cận này đều được
xây dựng bằng tay, vì vậy các mô hình đều dừng lại ở mức độ biểu diễn trên một vài
câu. Vấn đề khó khăn của cách tiếp cận này là thiếu tri thức.
 Dựa trên Cơ sở tri thức (Knowledge-Based):
28
Vào đầu thập niên 80, người ta đã chuyển sang hướng khai thác tri thức tự động từ
các từ điển điện tử (MRD: Machine – Readable Dictionaries) như các từ điển đồng
nghĩa để có thể phần nào khắc phục hạn chế của hướng tiếp cận dựa trên trí tuệ nhân
tạo (thiếu tri thức). Kết quả của hướng tiếp cận này là sự ra đợi của mạng WordNet –
Một cơ sở tri thức lớn về ngữ nghĩa theo hướng liệt kê nét nghĩa. Tuy nhiên, các
cơ sở tri thức nói trên cũng chỉ là những nguồn thông tin để hệ thống chọn nghĩa tham
khảo, còn chọn thông tin nào trong số những thông tin có liên quan đó thì ta phải tự xác
định trong từng trường hợp cụ thể.
 Dựa trên ngữ liệu (Corpus – Based)
Hướng tiếp cận này sẽ rút ra các quy luật xử lý ngữ nghĩa (bằng thống kê, bằng máy
học) từ những kho dữ liệu lớn đã có sẵn và áp dụng các luật này cho trường hợp mới.
Thực ra, cách tiếp cận này đã được nêu ra rất sớm (1940), nhưng do nguồn dữ liệu hạn
chế, thiết bị xử lý chưa hiện đại nên không có điều kiện phát triển. Mãi tới thập niên
1990, khi mà công nghệ phát triển mạnh, đã có thể vượt qua được khó khăn của mình,
cách tiếp cận này được hồi sinh và phát triển mạnh tới ngày nay.
Hiện nay, cách tiếp cận dựa trên ngữ liệu kết hợp với tri thức có sẵn là hướng tiếp
cận đang được nhiều nhà ngôn ngữ học – máy tính quan tâm.
1.3.3.2 Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analystic-LSA)
Kỹ thuật LSA là những lý thuyết và cách cho việc trích rút và thể hiện ngữ
cảnh sử dụng ngữ nghĩa của từ dựa trên việc tính toán thông kê. Kỹ thuật này cho phép
ứng dụng trên một kho dữ liệu văn bản lớn. Ý tưởng cơ bản của kỹ thuật là tổng hợp tất
cả các văn cảnh của từ, trong đó, một từ được đưa ra đã và không chỉ định biểu lộ
những tập ràng buộc lẫn nhau. Những tập ràng buộc này cho phép xác định sự tương
đồng về nghĩa của những từ và tập hợp mỗi từ khác.
Tập các từ khóa của các tài liệu của bước phân tích trên được dùng làm đầu vào cho
các hàng của ma trận. Theo đó, bộ từ khóa của một tài liệu được dùng làm cột, các tài
liệu làm hàng, các ô của ma trận được khởi tạo là tần suất xuất hiện của từ khóa-thuật
ngữ đó trong tài liệu. LSA dùng kỹ thuật phân tích giá trị riêng (SVD-Singular Value
Decomposition) để giảm bớt kích thước ma trận thuật ngữ-tài liệu, không gian N-chiều
sẽ được giảm bớt xuống một không gian K chiều, K< là không gian khái niệm.
Sử dụng kết quả bước này, ta thu được tập các tài liệu có sự tương đồng về ngữ
nghĩa nhất định với tài liệu xét. Là nguồn quan trọng trong việc đưa ra gợi ý những tài
liệu tương tự với tài liệu người dùng đang đọc.
29
Mô hình tìm tƣ vấn dựa trên phân tích ngữ nghĩa tiềm ẩn
Sau khi tách thành tập các từ khóa, modul này sẽ thực hiện việc cập nhật tiếp các tài
liệu liên quan, có độ tương đồng nhất định về nội dung. Mỗi tài liệu sẽ được xác định
cùng với nó một tập các tài liệu khác có tương đồng về mặt nội dung.
Phân tích ngữ nghĩa tiềm ẩn (LSA)
Có nhiều phương pháp khác nhau để đánh giá sự tương đồng về nội dung như
phương pháp Định chỉ số ngữ nghĩa tiềm ẩn (LSI – Latent Semantic Index), phương
pháp Phân tích ngữ nghĩa tiềm ẩn (LSA – Latent Sematic Analys).
Chỉ mục ngữ nghĩa tiềm ẩn (LSI) thêm một bước quan trọng cho việc xử lý chỉ mục
tài liệu.Thêm vào việc ghi những từ khóa mà một tài liệu chứa. Phương pháp này khảo
sát toàn bộ tập dữ liệu, để thấy những tài liệu khác chứa một số từ tương được với các
từ đó. LSI được phát triển đầu tiên ở Bellcore trong cuối những năm 80. LSI xem các
tài liệu có nhiều từ thông dụng là có nghĩa, và xem những tài liệu ít từ thông dụng là ít
có nghĩa. Mặc dù thuật giải LSI không hiểu tí gì về nghĩa của các từ, nó nhận ra các
khuân mẫu.
Khi tìm kiếm một CSDL chỉ mục LSI, công cụ tìm kiếm này xem xét những giá trị
tương tự mà nó tính toán cho mỗi từ của nội dung, và trả về các tài liệu mà nó nghĩ là
thích hợp nhất với câu truy vấn. Bởi vì hai tài liệu có thể rất gần nghĩa với nhau thậm
chí nếu chúng không cùng chung một từ khóa đặc biệt, LSI không yêu cầu một sự phân
tích lấy tương xứng để trả về các kết quả hữu dụng. Ở những vị trí mà một tìm kiếm
theo từ khóa đơn giản sẽ không thực hiện được nếu không có phân tích lấy tương xứng,
thì LSI sẽ thường trả về những tài liệu liên quan mà không chứa tất cả những từ khóa
đó.
Phân tích ngữ nghĩa là một khâu rất quan trọng trong hệ thống gợi ý. Bước tách từ
vựng đã tách tài liệu thành các từ khóa và nó đặc trưng cho tài liệu đó. Hệ thống sẽ tìm
Tập tài liệu
(từ khóa)
Xử lý LSA (ma
trận và giải thuật
SVD)
Tập các tài liệu
liên quan tới một
tài liệu
Cập nhật CSDL
(dữ liệu tài liệu
liên quan)
Hình 4: Cấu trúc giải thuật LSA
30
kiếm trong kết quả trả về cho người dùng lần đầu tiên bằng việc so khớp các từ khóa
được nhập với các từ khóa trong phần từ khóa của các tài liệu. Khâu xử lý về nội dung
sẽ xác định các tài liệu nào giống tài liệu nào. Giống ở đây chỉ mức độ tương đồng về
mặt nội dung giữa các tài liệu đem gợi ý. Có thể hai tài liệu không có bộ từ khóa giống
nhau, nhưng nó có thể sẽ giống về nội dung.
CHƢƠNG 2: PHƢƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA TIỀM ẨN
2.1 Tiền xử lý
Phân nhóm văn bản
Với bài toán đối sánh thực chất cũng chỉ là tìm kiếm những thông tin tiềm ẩn trong
cơ sở dữ liệu rồi sau đó so sánh. Với những cơ sở dữ liệu lớn thì vấn đề đặt ra là các hệ
thống tìm kiếm cần hiệu quả, một trong những kỹ thuật chủ yếu là phân nhóm văn bản
nhằm giải quyết vấn đề trên.
Trong bài toán phân nhóm, một nhóm là một tập hợp các phần tử giống nhau hơn
so với các phần tử thuộc nhóm khác. Mục tiêu là tìm ra một tập hợp các nhóm sao cho
độ tương đồng giữa các phần bên trong mỗi nhóm cao và độ tương đồng giữa các phần
tử khác nhau phải thấp.
Phƣơng pháp phân nhóm phân cấp
Quá trình này thường có chi phí lớn. Có nhiều thuật toán được phát triển nhằm xây
dựng cây phân cấp văn bản một cách hiệu quả. Các thuật toán này thường có chung
phương pháp lặp quá trình phân tích hai cặp nhóm đã được xây dựng từ trước và hợp
nhất cặp có độ tương đồng lớn nhất thành một nhóm văn bản.
Phƣơng pháp phân nhóm không phân cấp
Các thuật toán phân nhóm dạng này hoạt động theo cách ngược lại với thuật toán
phân nhóm phân cấp. Các thuật toán này luôn tăng số phần tử của từng nhóm và các
nhóm mới có thể là kết quả của quá trình tách hay hợp các nhóm cũ. Các phương pháp
phân nhóm không phân cấp có thể yêu cầu các văn bản không được trùng nhau ở các
nhóm khác nhau hay có thể trùng nhau.
2.2 Tách ...

 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
B Chế độ pháp lý về giao kết, thực hiện hợp đồng mua bán hàng hoá và thực tiễn áp dụng tại Công ty TNHH hỗ trợ kỹ thương Lê và Vũ Luận văn Kinh tế 2
T Nghiên cứu áp dụng SXSH cho công ty cổ phần kỹ nghệ thực phẩm Việt Nam Khoa học Tự nhiên 0
T Áp dụng các kỹ thuật trong big data vào lưu trữ dữ liệu Công nghệ thông tin 0
K thực tập áp dụng các phương pháp kỹ thuật thu thập bằng chứng kiểm toán tài chính do công ty tnhh ki Luận văn Kinh tế 0
T Nghiên cứu áp dụng kỹ thuật di truyền phân tử để chẩn đoán bệnh di truyền phổ biến ở người Việt Nam Luận văn Sư phạm 0
P Áp dụng tiêu chuẩn kỹ năng nghề du lịch Việt Nam ( VTOS) vào nghiên cứu lĩnh vực an ninh - an toàn t Địa lý & Du lịch 0
G Áp dụng tiêu chuẩn kỹ năng nghề du lịch Việt Nam (VTOS) trong đào tạo và hoạt động tác nghiệp của độ Địa lý & Du lịch 2
D Áp dụng kỹ thuật lấy mẫu nén hỗn loạn và kỹ thuật trải phổ trong chụp ảnh cộng hưởng từ song song Công nghệ thông tin 0
K Kỹ thuật lấy mẫu nén và áp dụng vào kỹ thuật mã mạng Công nghệ thông tin 0
A Kỹ thuật FPGA áp dụng thực hiện cho bộ mã FEC trong hệ DVB Công nghệ thông tin 0

Các chủ đề có liên quan khác

Top