Xây dựng ứng dụng phân tích ngữ nghĩa trong tìm kiếm tài liệu trực tuyến

haru_moon · 30/4/17

Download miễn phí Đề tài Xây dựng ứng dụng phân tích ngữ nghĩa trong tìm kiếm tài liệu trực tuyến

Ngày nay, internet đã chở thành cuộc cách mạng lớn của nhân loại mà động lực của nó chính là sự phát triển kinh tế mang tính toàn cầu. Nhưng sự phát triển đó cũng đòi hỏi ngày càng nhiều cơ sở lưu trữ dữ liệu hơn dẫn đến việc khai thác hiệu quả dữ liệu trở nên khó khăn. Để nâng cao khả năng sử lý dữ liệu thì dữ liệu phải được chọn lọc trước. Một hướng chọn lọc dữ liệu hiểu quả đó là phân tích ngữ nghĩa của văn bản. Toàn bộ văn bản được cô đọng trong ngữ nghĩa của nó. Chính vì vậy nếu phân tích được ngữ nghĩa của văn bản chúng ta sẽ giảm được một khối lượng lớn câu chữ không hàm chứa thông tin.

Việc nghiên cứu ngữ nghĩa của văn bản mở ra một hướng phát triển mới trong khai thác thông tin trên dữ liệu. Ngữ nghĩa của văn bản mang lại nhiều thuận lợi như vậy nhưng để thật sự hiểu rõ được các phương pháp nghiên cứu phân tích ngữ nghĩa là không dễ dàng. Do vậy mục tiêu của đồ án đặt ra gồm hài vấn đề chính như sau:

Về lý thuyết: Mục tiêu tìm hiểu, nghiên cứu về ngữ nghĩa của văn bản bao gồm các phần như: Phân tích, tách văn bản thành tập từ khoá, lọc tách từ khoá của văn bản nhằm cô đọng những từ khoá đặc trưng cho ngữ nghĩa của văn bản, thống kê và trích lọc những văn bản có ngữ nghĩa tương đồng.

Về phần ứng dụng minh hoạ: Mục tiêu là xây dựng được một ứng dụng mang tính demo sự khả thi của các kỹ thuật phân tích ngữ nghĩa.

Để tải tài liệu này, vui lòng Trả lời bài viết, Mods sẽ gửi Link download cho bạn ngay qua hòm tin nhắn.

Ketnooi -

You must be registered for see links

Ai cần tài liệu gì mà không tìm thấy ở Ketnooi, đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

thể vượt qua được khó khăn của mình, cách tiếp cận này được hồi sinh và phát triển mạnh tới ngày nay.
Hiện nay, cách tiếp cận dựa trên ngữ liệu kết hợp với tri thức có sẵn là hướng tiếp cận đang được nhiều nhà ngôn ngữ học – máy tính quan tâm.
Phân tích ngữ nghĩa tiềm ẩn (LSA)
Cũng liên quan tới mảng ngữ nghĩa của từ, trong đồ án tốt nghiệp này, chúng tui khai thác chiều khác của phân tích về mặt ngữ nghĩa. Ngoài việc tương đồng từ khóa về mặt hình thức (về bản mặt từ), chúng tui còn đề cập tới tương đồng về nội dung của tài liệu.
Có nhiều phương pháp khác nhau để đánh giá sự tương đồng về nội dung như phương pháp Định chỉ số ngữ nghĩa tiềm ẩn (LSI – Latent Semantic Index), phương pháp Phân tích ngữ nghĩa tiềm ẩn (LSA – Latent Sematic Analys).
Chỉ mục ngữ nghĩa tiềm ẩn (LSI) thêm một bước quan trọng cho việc xử lý chỉ mục tài liệu.Thêm vào việc ghi những từ khóa mà một tài liệu chứa. Phương pháp này khảo sát toàn bộ tập dữ liệu, để thấy những tài liệu khác chứa một số từ tương được với các từ đó. LSI được phát triển đầu tiên ở Bellcore trong cuối những năm 80. LSI xem các tài liệu có nhiều từ thông dụng là có nghĩa, và xem những tài liệu ít từ thông dụng là ít có nghĩa. Mặc dù thuật giải LSI không hiểu tí gì về nghĩa của các từ, nó nhận ra các khuân mẫu.
Khi bạn tìm kiếm một CSDL chỉ mục LSI, công cụ tìm kiếm này xem xét những giá trị tương tự mà nó tính toán cho mỗi từ của nội dung, và trả về các tài liệu mà nó nghĩ là thích hợp nhất với câu truy vấn. Bởi vì hai tài liệu có thể rất gần nghĩa với nhau thậm chí nếu chúng không cùng chung một từ khóa đặc biệt, LSI không yêu cầu một sự phân tích lấy tương xứng để trả về các kết quả hữu dụng. Ở những vị trí mà một tìm kiếm theo từ khóa đơn giản sẽ không thực hiện được nếu không có phân tích lấy tương xứng, thì LSI sẽ thường trả về những tài liệu liên quan mà không chứa tất cả những từ khóa đó.
Phương pháp đề cập nữa là phân tích ngữ nghĩa tiềm ẩn (LSA), là phần kia của đồ án. Xin vui lòng xem đồ án của Mr Cường sẽ có trình bầy chi tiết về phương pháp LSA, và áp dụng của nó trong việc phân tích nội dung của tài liệu.
Nhận xét, kết luận
Phân tích ngữ nghĩa là một khâu rất quan trọng trong hệ thống gợi ý. Bước tách từ vựng đã tách tài liệu thành các từ khóa và nó đặc trưng cho tài liệu đó. Hệ thống sẽ tìm kiếm trong kết quả trả về cho người dùng lần đầu tiên bằng việc so khớp các từ khóa được nhập với các từ khóa trong phần từ khóa của các tài liệu. Khâu xử lý về nội dung sẽ xác định các tài liệu nào giống tài liệu nào. Giống ở đây chỉ mức độ tương đồng về mặt nội dung giữa các tài liệu đem gợi ý. Có thể hai tài liệu không có bộ từ khóa giống nhau, nhưng nó có thể sẽ giống về nội dung.
Thu thập thông tin người dùng
Ưu điểm của các hệ thống tự học
Hệ thống tự học là hệ thống dựa vào thông tin của người dùng mà người dùng cung cấp những lần giao dịch với hệ thống để phát hiện ra những sở thích lĩnh vực người dùng quan tâm để cải thiện kết quả trả về cho người dùng cho sát với những yêu cầu thực tế. Hệ thống là một phần nhỏ của hệ chuyên gia-là hệ mà khai thác tri thức trong những lần “giao tiếp” với người dùng bằng các tập luật đã được định nghĩa sẵn.
Những ưu điểm của hệ thống tự học chúng tui tổng kết được.
Tri thức của hệ thống là tri thức mở. Các giao tiếp với người dùng có thể thay đổi sau những lần giao dịch để thích hợp với sở thích của người dùng hơn.
Cho phép người dùng lựa chọn bước tiếp theo của hệ thống.
Kết quả tìm kiếm đối với một hệ thống search engine ngày càng sát hơn với nhu cầu của người tìm kiếm.
Càng thông minh hơn sau nhiều lần giao dịch với người dùng.
Hệ thu nhận và tạo một profile cho người dùng (nếu họ đăng ký thông tin với hệ thống). Và sau những lần giao dịch với hệ, hệ sẽ học được và loại bỏ những thông tin không cần thiết, tăng bộ lọc cho kết quả trả về.
Phân tích logfile
Logfile là file ghi nhận thông tin về lịch sử làm việc của người dùng với một hệ nào đó. Việc phân tích logfile sẽ góp phần quan trọng để xác định những sở thích của người dùng để thu hẹp phạm vi các kết quả trả về, đồng thời cũng thu thập để chính xác hơn những dữ liệu mà hệ thống có với những hệ gợi ý.
Có rất nhiều các kỹ thuật phân tích logfile, trong phạm vi đồ án này, tui chỉ giới thiệu mà không đi sâu vào phương pháp nào, để giới thiệu một ứng dụng nhỏ trong hệ thống về việc phân tích các thông tin trong các lần giao dịch với hệ thống.
Phân tích dựa thông tin người dùng
Việc ghi nhận các thông tin của người dùng như địa điểm, độ tuổi, giới tính, hay một số các thông tin về sở thích sẽ giúp hệ thống lọc chính xác hơn các kết quả đưa lại cho người dùng. Thí dụ, một trang nhạc có thể đưa mặc định trong playlist của một người dùng có tuổi 13 những bài hát thiếu nhi.
Những hệ thống đa người sử dụng, phân tích dựa trên thống tin người dùng thể hiện ở các nhóm quản trị hệ thống, nhóm các người dùng thông thường hay những khác vãng lai. Với những hệ thống đó, những thông tin về người dùng sẽ quyết định giao diện của hệ thống đối với người dùng đó.
Kết luận
Một hệ thống recommender system cần kết hợp tối đa các phân tích để trả lại kết quả chính xác và phù hợp nhất cho yêu cầu của người dùng. Những thông tin do người dùng cung cấp sẽ là những bộ lọc cho kết quả, những nguồn thông tin đầu vào cho những gợi ý nâng cao. Hệ thống khai thác tri thức dựa trên thông tin được cung cấp bởi người được áp dụng rất nhiều ngay từ những năm 60 được thể hiện ở những hệ chuyên gia, hệ tư vấn.
Vấn đề lưu trữ dữ liệu
Vấn đề lưu trữ dữ liệu cũng là bài toán không nhỏ với những bộ máy tìm kiếm. Ở phần dưới, tui sẽ giới thiệu những công cụ tìm kiếm nổi tiếng trên internet hiện nay. Mỗi hệ thống đều có những giải pháp lưu trữ dữ liệu riêng phụ thuộc vào giải thuật tìm kiếm của mình. Với những search engine, phải có kế hoạch cập nhật thông tin định kỳ nhất định để cập nhật sự thay đổi (những hệ thống tìm kiếm online) hay khi cập nhật tài liệu mới (những hệ thống trên CSDL có sẵn). Trong đồ án này, chúng tui cũng lựa chọn một cách lưu trữ dữ liệu sẽ được trình bày chi tiết trong phần sau.
PHẦN II: CƠ SỞ LÝ THUYẾT
CÁC BỘ MÁY TÌM KIẾM
Một số engine thông dụng
Sau đây là danh sách một số search engine. Tại sao chúng được gọi là các search engine “lớn”? Đó là vì chúng được biết đến nhiều và sử dụng tốt. Với các chuyên gia web, các công cụ tìm kiếm lớn là danh sách những nơi quan trọng nhất bởi chúng phát sinh ra một lượng lớn các trang web tiềm tàng. Đối với những người tìm kiếm, các công cụ tìm kiếm phổ biến thường trả lại kết quả đáng tin cậỵ
Dưới đây là danh sách các search engine.
Hình 12: Giao diện tìm kiếm của Google
Nguyên thủy, Google là một đề án của trường Đại học Stanford được thực hiện bởi hai sinh viên Larry Page và Sergey Brin gọi là BackRub. Đến năm 1998 thì đổi...

Tạo bởi	Tiêu đề	Blog	Ngày
D	Hoàn thiện công tác cung ứng nguyên vật liệu tại công ty cổ phần đầu tư xây dựng quang trung 2018	Kiến trúc, xây dựng	21/3/23
D	Xây dựng hệ thống quản trị mạng dựa trên phần mềm mã nguồn mở Cacti và ứng dụng tại trường Đại học Hải Phòng	Công nghệ thông tin	22/2/23
D	Tìm hiểu angular, ionic framework và xây dựng ứng dụng minh	Công nghệ thông tin	11/2/23
D	Xây dựng ứng dụng tìm kiếm và quản lý nhà trọ online trên điện thoại	Công nghệ thông tin	11/2/23
D	Bài tập lớn môn cơ sở dữ liệu Ứng dụng MySQL trong xây dựng hệ Cơ Sở Dữ Liệu quản lí bán máy tính	Công nghệ thông tin	23/10/21
D	Xây dựng đội ngũ công chức cấp xã đáp ứng yêu cầu cải cách hành chính nhà nước ở tỉnh hưng yên hiện nay	Văn hóa, Xã hội	4/6/21
D	Xây dựng đội ngũ cán bộ, công chức cấp xã ở huyện Thạch Hà đáp ứng yêu cầu cải cách hành chính nhà nước hiện nay	Văn hóa, Xã hội	31/5/21
D	Xây dựng ứng dụng quản lí cửa hàng thuốc tây	Công nghệ thông tin	26/5/21
D	Xây dựng văn hoá hành vi ứng xử trong doanh nghiệp	Marketing	1/4/19
A	Nghiên cứu và đề xuất mô hình chuẩn để xây dựng một ứng dụng Portal (Portlet) sử dụng JSR168 và độc	Luận văn Kinh tế	17/5/18

Xây dựng ứng dụng phân tích ngữ nghĩa trong tìm kiếm tài liệu trực tuyến

haru_moon

New Member

Download miễn phí Đề tài Xây dựng ứng dụng phân tích ngữ nghĩa trong tìm kiếm tài liệu trực tuyến

Tóm tắt nội dung tài liệu:

Các chủ đề có liên quan khác