daigai

Well-Known Member
Link tải luận văn miễn phí cho ae

TÓM TẮT
Nhận dạng ký tự quang học đã ra đời từ rất lâu, trước cả sự ra đời của máy vi
tính. Điều đó chứng tỏ nhu cầu của con người trong lĩnh vực này. Theo thời gian, với
sự phát triển nhanh chóng và mạnh mẽ của máy vi tính và các thiết bị quang học như
máy quét, máy chụp ảnh kỹ thuật số, kỹ thuật nhận dạng ký tự càng đạt được nhiều
thành tựu rực rỡ về độ chính xác và mở rộng khả năng ứng dụng trong nhiều lĩnh vực
trong cuộc sống.
Tesseract là một lõi nhận dạng ký tự quang học nguồn mở với độ chính xác cao.
Nó thu hút sự quan tâm của cộng đồng nguồn mở trên toàn thế giới. Nghiên cứu
Tesseract, sử dụng nó như một module nhận dạng để phát triển một phần mềm nhận
dạng ký tự miễn phí, hiệu quả là nội dung của đề tài luận văn tốt nghiệp này.
ABSTRACT
Optical Character Recognition was born long ago, before the advent of the
computer. This demonstrates for the human needs in this area. Over time, with the
rapid and powerful development of computers and optical devices such as scanner,
digital camera, character recognition technique achieves more brilliant achievements
in terms of accuracy and extended applicability in many areas of life.
Tesseract is a open source optical character recognition engine with high
accuracy. It attracted the attention of the worldwide open source community.
Researching Tesseract, using it as a recognition module to develop a character
recognition software for free, effective, is the entire of this thesis.
TỪ KHÓA – KEY WORD
 Software Engineering: Công nghệ phần mềm (CNPM) hay kỹ nghệ phần
mềm.
 GUI: Graphical User Interface
 Input: đầu vào
 OCR: Optical Character Recognition
 Output: đầu ra
 Ngôn ngữ hay ngôn ngữ làm việc: ngôn ngữ mà bộ máy OCR sẽ sử dụng
để nhận dạng văn bản. Ví dụ: tiếng Anh, Pháp, Việt…
 Tesseract: OCR engine
1.1. ĐẶT VẤN ĐỀ
Nhân loại đã và đang nỗ lực mô phỏng, “tự động hóa” các khả năng của chính
mình như đi, đứng, nghe, nhìn, đọc, viết, học hỏi… Những nỗ lực đó đã đạt được
nhiều thành tựu to lớn. Nhận dạng ký tự quang học (Optical Character Recognition -
OCR) là một trong số đó.
Ta hãy thử hình dung một số tình huống sau:
 Một du khách Việt Nam sang Pháp du lịch. Anh ta vào một nhà hàng và
người phục vụ đưa anh ta một thực đơn toàn tiếng Pháp. Anh ta không biết
tiếng Pháp nhưng điều đó không thành vấn đề vì anh ta có một chiếc điện
thoại có chức năng chụp ảnh và chuyển văn bản trong ảnh về tiếng Việt.
 Một người khiếm thị ham học hỏi. Anh ta có nhiều sách hay. Anh ta hoàn
toàn có thể nắm bắt các tri thức trong sách nhờ vào một thiết bị cho phép chụp
ảnh trang sách và đọc nội dung văn bản.
 Một thư viện có nhiều quyển sách cổ rất quý giá. Vì muốn bảo tồn những
tri thức quý giá đó và dễ dàng trong việc quản lý, tìm kiếm nội dung, người ta
“số hóa” chúng. Thay vì mất nhiều ngày, nhiều tháng đánh máy, người ta chỉ
cần sử dụng máy scan, tạo thành dữ liệu ảnh, sau đó dùng phần mềm nhận
dạng ký tự để chuyển về dạng văn bản.
Những tình huống trên không phải là không tưởng. Thực tế đã có các thiết bị và
phần mềm, với cốt lõi là các OCR engine, cho phép làm chuyện đó.
Tesseract là một OCR engine nguồn mở (open source), nổi bật với độ chính xác
cao, rất đáng để tìm hiểu và ứng dụng.
1.2. LỊCH SỬ GIẢI QUYẾT VẤN ĐỀ
Thế giới tồn tại nhiều OCR engine và các ứng dụng của chúng. Những ứng
dụng này có thể là miễn phí hay có phí với giá thành dao động từ khoảng 100 USD
cho đến khoảng 700 USD. 1
Nổi bật với độ chính xác cao và miễn phí, Tesseract OCR engine đã và đang
được cộng đồng nguồn mở không ngừng phát triển và cải tiến. Nhiều Giao diện người
dùng đồ họa (Graphical User Interface - GUI), dành cho Tesseract được đưa ra trên
các nền Java hay .NET. 2 Nhưng do miễn phí và phát triển riêng lẽ nên các GUI này
chưa thật sự thân thiện và chưa đáp ứng tốt các nhu cầu của người dùng.
1.3. PHẠM VI ĐỀ TÀI
1.3.1. Về phần mềm ứng dụng
Xây dựng phần mềm nhận dạng văn bản in sử dụng lõi Tesseract. Phần mềm
cung cấp cho người dùng giao diện làm việc thân thiện, dễ sử dụng với các chức năng
xử lý hình ảnh đầu vào (Input Image), thực hiện OCR và xử lý văn bản đầu ra (Output
Text).
1.3.2. Về lý thuyết
 Áp dụng, mô phỏng các giai đoạn trong phát triển phần mềm.
 Sử dụng bộ công cụ lập trình Visual Basic .NET (VB.NET).
1.3.3. Về chức năng
 Xử lý ảnh đầu vào (Input Image)
 Thực hiện OCR toàn văn bản hay một vùng được chọn.
 Xử lý văn bản đầu ra (Output Text).
1.4. PHƯƠNG PHÁP NGHIÊN CỨU VÀ HƯỚNG GIẢI QUYẾT
 Tìm hiểu các tài liệu liên quan như tài liệu về: OCR, Tesseract, công nghệ
và tiến trình làm phần mềm, ngôn ngữ lập trình, giải thuật…3
 Sử dụng Internet như một công cụ hiệu quả.
1.4.1. Về lý thuyết
 Tìm hiểu lý thuyết về công nghệ phần mềm.
 Tìm hiểu Visual Studio, .NET Framework và ngôn ngữ lập trình VB.NET.
 Tìm hiểu khái quát OCR.
 Tìm hiểu Tesseract và thư viện mở Tessnet.
1.4.2. Về chương trình demo
 Mô phỏng các giai đoạn trong tiến trình làm phần mềm để phát triển phần
mềm.
 Sử dụng thư viện Tessnet như module nhận dạng và thư viện
VietKeyInput như module xử lý tiếng Việt.
 Sử dụng bộ công cụ lập trình VB.NET để hiện thực hóa phần mềm.
 Tham khảo ý kiến của thầy hướng dẫn và bạn bè để hoàn thiện sản phẩm.
Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
D kế toán nguyên vật liệu tại công ty cổ phần thương mại đầu tư xây dựng nam phát Luận văn Kinh tế 0
D Hoàn thiện kế toán nguyên vật liệu tại công ty cổ phần đầu tư xây dựng fast việt nam Luận văn Kinh tế 0
D Xây dựng và quản lý hồ sơ địa chính bằng công nghệ phần mềm ViLIS tại thị trấn Thắng Khoa học Tự nhiên 0
D Kế toán tiền lương và các khoản trích theo lương tại Công ty cổ phần xây dựng số 1 Vinaconex Luận văn Kinh tế 0
D Báo cáo thực tập tổng hợp của Công ty Cổ phần Xây dựng số 2 vinaconex 1 Luận văn Kinh tế 0
D Báo cáo thực tập tổng hợp tại Tổng Công ty Cổ phần Xuất nhập khẩu và Xây dựng Việt Nam Kiến trúc, xây dựng 0
D Thực trạng công tác kế toán tại công ty cổ phần xây dựng và đầu tư 492 Luận văn Kinh tế 0
D Pháp luật về hợp đồng và thực tiễn thực hiện hợp đồng xây dựng công trình thủy lợi tại công ty cổ phần xây dựng thủy lợi Hải Phòng Nông Lâm Thủy sản 0
D Xây dựng chương trình quản lí chất lượng theo HACCP cho sản phẩm Chả giò xốp tôm cua chiên đông lạnh tại Công ty cổ phần thực phẩm Cholimex Nông Lâm Thủy sản 0
D Hoàn thiện công tác cung ứng nguyên vật liệu tại công ty cổ phần đầu tư xây dựng quang trung 2018 Kiến trúc, xây dựng 0

Các chủ đề có liên quan khác

Top