Markus

New Member
Xin chào các bạn!

Nếu bạn đã từng có tài liệu cần gõ lại trên máy tính thì chắc hẳn các bạn cũng đã biết đến một trong những giải pháp tuyệt vời. Đó chính là OCR (Optimier Character Rending – Công nghệ nhận dạng ký tự thông minh)!

Nhắc đến OCR, ta không thể không nhắc đến 1 phần mềm nổi tiếng toàn cầu, có thể OCR gần 200 ngôn ngữ với độ chính xác theo khuyến cáo của nhà sản xuất là 99%, đó là ABBYY Fine Feader 11!

Thế nhưng câu hỏi được đặt ra ở đây là: “Vậy thì làm seo có thể OCR với mức 100%?”

Trong bài viết này sẽ giải quyết phần nào thắc mắc đó của các bạn với 3 công cụ của ABBYY Labs (bao gồm cả FR11) mà ít người biết đến!

Note: Bài viết này cũng sẽ tập hợp tất cả những phiên bản của 3 phần mềm này mà người viết có được để tiện cho việc “ngâm cứu” của 1 số người trong 4rum!

ABBYY FineReader Professional 11


ABBYY FineReader 11 là phần mềm OCR thông minh có thể chuyển đổi tài liệu giấy, ảnh số và các tập tin pdf sang văn bản điện tử ở định dạng có thể soản thảo và tìm kiếm được, giữ lại định dạng và dàn trang tốt hơn bao giờ hết. Bạn chỉ cần quét hay chụp hình văn bản và ABBYY FineReader sẽ làm nốt phần còn lại. Chỉ trong vòng một phút bạn đã có trong tay văn bản điện tử có thể chỉnh sửa được! Trực quan, nhanh chóng và mạnh mẽ, ABBYY FineReader 11 giúp cho cá nhân và doanh nghiệp tiết kiệm thời gian và đạt hiệu quả cao trong công việc.

Link Download:

- ABBYY FineReader Pro 8.0 (1 part, tổng 40MB):

+

- ABBYY FineReader Pro 9.0 (2 part, tổng 245MB):

+

- ABBYY FineReader Pro 10.0 (Đang update):

+ ....

+ (1 part, tổng 73MB)

- ABBYY FineReader Pro 11.0 (2 part, tổng 384MB):

+

ABBYY Recognition Server 3.0


Là giải pháp số hóa và kết xuất file PDF mạnh. Hoạt động theo mô hình xử lý tập trung, một máy chủ nhận dạng có thể xử lý đồng thời nhiều tác vụ. Recognition Server có thể được dùng như là một giải pháp số hóa hoàn chỉnh cho các nhu cầu lưu trữ, tìm kiếm hay như là một cấu phần để tích hợp vào các hệ thống CMS, DMS, ERP khác.

Link Download:

- ABBYY Recognition Server 2.0 (2 part, tổng 354MB):

+

- ABBYY Recognition Server 3.0 (3 part, tổng 448MB):

+

Tài liệu tham khảo:

+

ABBYY FlexiCapture 10

Là giải pháp hoàn chính cho bài toán phân loại tài liệu, nhận dạng và trích xuất dữ liệu. FlexiCapture có thể nhận dạng và trích xuất dữ liệu từ nhiều loại mẫu biểu và tài liệu, kết xuất dữ liệu này tới các file lưu trữ hay cơ sở dữ liệu, lưu tài liệu gốc ở các định dạng ảnh, bao gồm cả chuẩn PDF, PDF/A.

Link Download:

- ABBYY FlexiCapture 8.0 (2 part, tổng 284MB):

+

- ABBYY FlexiCapture 9.0 (7 part, tổng 1.2GB):

+

- ABBYY FlexiCapture 10.0 (8 part, tổng 1.43 GB):

+

Tài liệu tham khảo:

+

Lưu ý: FR từ bản 11 trở đi chính thức hỗ trợ tiếng Việt!

RS từ bản 2.0 chính thức hỗ trợ tiếng Việt!

FC từ bản 8.0 trở đi chính thức hỗ trợ tiếng Việt!

Trong các phần mềm trên thì chỉ duy nhất các phiên bản của FineReader là có Cr-ack và đã được đính kèm trong bộ cài đặt!

[email protected]

Have Fun…!!!

(Bài viết có tham khảo từ sohoa.com.vn và các thành viên trong 4rum)

P/S: Có gì sai sót mong các bạn lượng thứ!

Thực ra mình cũng chưa biết cách sử dụng nó lắm, he he, nhưng đảm bảo là cả 3 cái trên đều dùng để OCR. Nếu ai không tin thì có thể xem thông tin tại đây:
 

nhht66

New Member
Chưa test bản RS và FC, hy vọng sẽ dùng tốt như bạn đã đưa tin. Thank một cải ủng hộ bạn.
 

loveyoulovemetn

New Member
Chưa test bản RS và FC, hy vọng sẽ dùng tốt như bạn đã đưa tin. Thank một cải ủng hộ bạn. Ok. Thank đã đặt gạch.
 

Ossie

New Member
Nặng quá. File setup hay portable vậy?

Có lẽ khi mô cầm mới down thôi
 
Nặng quá. File setup hay portable vậy?

Có lẽ khi mô cầm mới down thôi Setup đấy bạn ời. Chỉ có FR 8.0 là chạy luôn được thôi nhé.

thank bác, em sẽ test hết Hì! bạn test thử xem sao nhé. mấy hôm nữa up nốt cái FR 10.0 và FC 10.0
 
Bạn chỉ cần quét hay chụp hình văn bản và ABBYY FineReader sẽ làm nốt phần còn lại. Chỉ trong vòng một phút bạn đã có trong tay văn bản điện tử có thể chỉnh sửa được!

Cái này hay...test mới được!! thanks bạn!!
 

be_xjnh_style

New Member
đg tìm cái này cho bà chị, nhưng chưa biết dùng có ổn không đây Bạn cứ thử đi. Nếu nói về OCR thì FR 11 và FC là nhất rồi, đảm bảo không có thằng nào hơn hai thèng này cả!
 

thanhcong0801

New Member
Mình trước cũng đã ngâm mấy cái này, nói chung bản tiếng Anh thì ổn còn các ngôn ngữ khác trong đó có tiếng Việt thì tỉ lệ bị lỗi cũng bị 1 ít. OCR cũng chỉ hỗ trợ các font & bộ gõ mới còn các loại tài liệu cũ mà scan thì cũng không đạt. Có 1 trang cho scan online bản tiếng Anh khá tốt & hỗ trợ cả tiếng Việt nữa.

các bạn tham khảo nhé.
 

cam_tn

New Member
Mình trước cũng đã ngâm mấy cái này, nói chung bản tiếng Anh thì ổn còn các ngôn ngữ khác trong đó có tiếng Việt thì tỉ lệ bị lỗi cũng bị 1 ít. OCR cũng chỉ hỗ trợ các font & bộ gõ mới còn các loại tài liệu cũ mà scan thì cũng không đạt. Có 1 trang cho scan online bản tiếng Anh khá tốt & hỗ trợ cả tiếng Việt nữa.

các bạn tham khảo nhé. Dồng ý với bạn về FR11. còn nếu bạn nào không có điều kiện, chỉ muốn OCR vài trang, thì nên vào sohoa.com.vn mà scan, họ cũng áp dụng mấy phần mềm ở trên, chỉ khác là tiện hơn 1 chút (ko phải down soft về máy)
 

bacbinhcity

New Member
Dồng ý với bạn về FR11. còn nếu bạn nào không có điều kiện, chỉ muốn OCR vài trang, thì nên vào sohoa.com.vn mà scan, họ cũng áp dụng mấy phần mềm ở trên, chỉ khác là tiện hơn 1 chút (ko phải down soft về máy) Trong cũng hỗ trợ nhiều file 1 lúc gồm trên 30 ngôn ngữ có cả tiếng Việt nữa đó bạn.
 
Thank bạn chia sẻ!


Mình mới chỉ dùng ABBYY FineReader 10, 11. Cũng có chung kết luận với một số bạn khác là phần mềm nhận dạng tốt với tiếng Anh, với tiếng Việt từ các tài liệu chụp, scan còn nhiều lỗi. Về tốc độ và độ chính xác thì hơn bản Adobe Pro 10 extended, tương đương với Omni Page 17.


Nếu các bạn trực tiếp scan thì nên chọn độ phân giải từ 600 dpi trở lên, chọn chế độ quét văn bản (text) đen trắng (trừ khi bạn muốn giữ lại ảnh màu, những trường hợp này chắc ít thôi) thì khả năng nhận diện của các phần mềm sẽ tốt hơn. các bạn có thể scan thử vài lần để chỉnh độ tương phản (contrast) cho phù hợp. Độ phân giải và độ tương phản cao hơn thường giúp quá trình nhận diện chính xác hơn.


Nói chung mấy phần mềm ORC dung lượng đều "khủng" cả. Nếu chỉ sử dụng ORC tiếng Anh thì có nhiều lựa chọn dễ thở hơn nhiều FoxitPhantom là lựa chọn tốt.
 

be_ma

New Member
Thank bạn chia sẻ!


Mình mới chỉ dùng ABBYY FineReader 10, 11. Cũng có chung kết luận với một số bạn khác là phần mềm nhận dạng tốt với tiếng Anh, với tiếng Việt từ các tài liệu chụp, scan còn nhiều lỗi. Về tốc độ và độ chính xác thì hơn bản Adobe Pro 10 extended, tương đương với Omni Page 17.


Nếu các bạn trực tiếp scan thì nên chọn độ phân giải từ 600 dpi trở lên, chọn chế độ quét văn bản (text) đen trắng (trừ khi bạn muốn giữ lại ảnh màu, những trường hợp này chắc ít thôi) thì khả năng nhận diện của các phần mềm sẽ tốt hơn. các bạn có thể scan thử vài lần để chỉnh độ tương phản (contrast) cho phù hợp. Độ phân giải và độ tương phản cao hơn thường giúp quá trình nhận diện chính xác hơn.


Nói chung mấy phần mềm ORC dung lượng đều "khủng" cả. Nếu chỉ sử dụng ORC tiếng Anh thì có nhiều lựa chọn dễ thở hơn nhiều FoxitPhantom là lựa chọn tốt. Thật ra chế độ quét 600dpi chỉ nên dùng cho phần text (phần chữ) quá nhỏ. Nếu bình thường tài liệu đã rõ thì nên để chế độ normal (khoảng 300dpi) để cho nhanh. Thank những kinh nghiệm của bạn.
 

dulieuxd

New Member
Thank bạn chia sẻ!


Mình mới chỉ dùng ABBYY FineReader 10, 11. Cũng có chung kết luận với một số bạn khác là phần mềm nhận dạng tốt với tiếng Anh, với tiếng Việt từ các tài liệu chụp, scan còn nhiều lỗi. Về tốc độ và độ chính xác thì hơn bản Adobe Pro 10 extended, tương đương với Omni Page 17.


Nếu các bạn trực tiếp scan thì nên chọn độ phân giải từ 600 dpi trở lên, chọn chế độ quét văn bản (text) đen trắng (trừ khi bạn muốn giữ lại ảnh màu, những trường hợp này chắc ít thôi) thì khả năng nhận diện của các phần mềm sẽ tốt hơn. các bạn có thể scan thử vài lần để chỉnh độ tương phản (contrast) cho phù hợp. Độ phân giải và độ tương phản cao hơn thường giúp quá trình nhận diện chính xác hơn.


Nói chung mấy phần mềm ORC dung lượng đều "khủng" cả. Nếu chỉ sử dụng ORC tiếng Anh thì có nhiều lựa chọn dễ thở hơn nhiều FoxitPhantom là lựa chọn tốt. Thật ra chế độ quét 600dpi chỉ nên dùng cho phần text (phần chữ) quá nhỏ. Nếu bình thường tài liệu đã rõ thì nên để chế độ normal (khoảng 300dpi) để cho nhanh. Thank những kinh nghiệm của bạn. Đúng vậy. và còn tùy theo chất lượng loại giấy mà các bạn scan nữa, nếu giấy cũ mờ (mặc dù rõ chữ) thì cũng nên để tầm 400dpi, vì khi scan đen trắng thì sẽ bị lẫn màu, làm cho có chỗ sẽ bị OCr lỗi.

Nhưng tựu chung DPI càng cao, OCR càng tốt (Nhưng đừng bạn nào để DPI >1000, vì khi OCR sẽ phải đợi cả tiếng)


---------- Bài thêm lúc 08:20 ---------- Bài trước là lúc 08:05 ----------

[NEW] Hum nay update ABBYY Flexi Capture 10.8 cho bác nào ham mê mạo hiểm, khám phá nhé!
 

kebaothu90

New Member
Không thể nào áp dụng cho tiếng việt, còn tiếng anh thì chả cần phần mềm gì cả, trong bộ office 2003 cho phép chuyển bất cứ tài liệu nào dạng hình ảnh sang word được tất.
 
Top