Chào cả nhà có khi nào các bạn giờ mở một file PDF mà không thể thực hiện được chức năng tìm kiếm như thế này:
Thực hiện chức năng tìm kiếm.
và kết quả là:
Không tìm được đúng hem nào, cái này rất bất tiện cho các bạn khi sử dụng từ điển. Vì hiện nay chỉ có một số cuốn từ điển là lấy file biên soạn gốc chuyển thanhf PDF, nhưng đa số lại không làm như thế mà là scan hoặc chụp hình lại cuốn đã in.
=> điều này là cho chương trình đọc PDF không thể tìm kiếm cũng như xóa, coppy.v.v.
Vậy để khắc phục mình xin hướng dẫn các bạn một cách (trong vô số cách trên mạng hihi)
Sử dụng chương trình này hén: ABBYY FineReader
-- Đây là phần mềm OCR thông minh có thể chuyển đổi tài liệu giấy, ảnh số và các tập tin PDF sang văn bản điện tử ở định dạng có thể soản thảo và tìm kiếm được. ABBYY FineReader thế hệ mới nhất (phiên bản 11) là thế hệ đầu tiên hỗ trợ nhận dạng tiếng Việt. Không chỉ nhận dạng tiếng Việt với độ chính xác lên tới 99%, ABBYY FineReader 11 còn có khả năng giữ nguyên định dạng và dàn trang của tài liệu gốc tốt hơn bao giờ hết. Bạn chỉ cần quét hoặc chụp hình văn bản rồi để ABBYY FineReader làm nốt phần còn lại. Chỉ trong chốc lát là bạn sẽ có trong tay văn bản số ở định dạng có thể soạn thảo được ! Trực quan, nhanh chóng và mạnh mẽ, ABBYY FineReader 11 giúp các cá nhân và doanh nghiệp tiết kiệm thời gian và đạt hiệu quả công việc cao hơn.
Các tính năng:
* Nhận diện chính xác và duy trì các tổ chức của văn bản
* Xuất ra XML và tích hợp với Microsoft Office Word 2003
* Hỗ trợ PDF Input/Output
* Nhận dạng đa ngôn ngữ
* Legal and Medical Dictionaries
* Dễ sử dụng
* Lưu lại kết quả thành nhiều định dạng khác nhau
* WYSIWIG Text Editor
* Hỗ trợ tách ảnh
* Xuất ra thành Microsoft PowerPoint
* Chức năng tìm kiếm với Morphology Support
* Các tùy chọn lưu ảnh cao cấp
* Các ứng dụng thêm cho việc hoàn thành và in ấn các Form
* Nhận dạng mã vạch
Home Page - [You must be registered and logged in to see this link.]
Các bạn cũng có thể tải chương trình tại đây: [You must be registered and logged in to see this link.]
Tải xong cài đặt chương trình nào. (cài như những chương trình bt khác thôi à.
Đến cách sử dụng.
Mở chương trình lên:
Chọn tính năng chuyển đổi mà bạn muốn:
Dẫn đến nguồn tài nguyên mà bạn muốn chuyển đổi.
Đợi nó chạy;
và kết quả là chúng ta có 1 file word hoàn thành, có thể chỉnh sữa bla bla hihi
*******___________*********
Vì khi file gốc của cái Pdf các bạn có là một file ảnh thì khi các bạn dử dụng chương trình converter như 1-2-3PDFConverter, PDFtoWord Converter bla bla... thì cái file word mà các bạn thu được cũng là 1 cái ảnh thôi nó không thể chỉnh sữa được mà các bạn phải tự đánh máy lại => tốn thời gian hihi.
Điểm yếu của chương trình mà mình giới thiệu là nó chỉ mới được hỗ trợ tiếng việt mới đây (trước đây nó không có tiếng việt) và nó sử dụng "Công nghệ nhận dạng chữ in OCR" nên nó sẽ bị lỗi chính tả một số chỗ (độ chính xác chỉ đạt cỡ 98%) nên sau khi chuyển đổi các bạn phải đọc lại và tự sửa cho hoàn chỉnh lại bài của mình.
Điểm mạnh của nó là công nghệ cho phép chuyển đổi tài liệu dạng ảnh (các ảnh đầu ra của máy quét, máy ảnh, file PDF dạng ảnh…) thành tài liệu có thể biên tập được (file text, file Word…)(không chỉ chuyển đổi PDF không nhé, bạn có thể chụp ảnh tài liệu rồi đưa vô nó => word luôn hehe)
Hãy tưởng tượng bạn đang có trong tay một số tài liệu giấy như sách, báo, tờ rơi quảng cáo, hợp đồng v..v… máy quét chỉ có thể giúp bạn biến những tài liệu giấy này thành tài liệu dạng ảnh. Với các tài liệu dạng ảnh, bạn chỉ có thể đọc mà không thể biên tập lại chúng trên các hệ soạn thảo điện tử hiện nay; các hệ thống tìm kiếm cũng không thể tìm được các đoạn văn bản trên những tài liệu này.
Với việc sử dụng phần mềm nhận dạng chữ in, bài toán tìm kiếm toàn văn, trích dẫn, biên soạn lại các tài liệu dạng ảnh sẽ được thực hiện rất đơn giản.
**********_______________***********
Vài kinh nghiệm cho các bạn khi dùng ABBYY v11
- Bản tài liệu là giấy khi dùng scan cần phải sạch sẽ, tương đối rõ ràng các phần chữ, khung của các bảng biểu cần phải liền nhau đừng đứt nét.Tốt nhất là sử dụng máy ảnh >5-8 megapixxel chụp lại là ok.
- Nếu tài liệu quá cũ bạn cần foto lại, làm sao cho bản foto khá rõ (ví dụ có tài liệu cũng là bản foto nhưng do cẩu thả nên làm nghiêng cạnh trang khi foto làm trang tài liệu bị mất chữ hoặc khung và chữ bị nghiêng về một góc trang).
- Nếu là sách dày bạn cần tháo rời ra để scan, đặt trang tài liệu nằm thật ngay ngắn trên mặt kính quét của máy scan (tốt nhất bạn đưa ra foto rồi dùng bản foto khổ A4 quét scan).
Những chú ý trên sẽ giúp bạn có được một bản tài liệu quét scan có các ký tự quang học rõ ràng, đầy đủ nét chữ, khung viền... và từ đây khi dùng ABBYY v11 chuyển tài liệu sang word hoặc exell thì chất lượng đảm bảo ít phải chỉnh sửa lại. Việc đưa ra máy foto để foto rồi mới scan thì chi phí vẫn còn rẻ hơn là ngồi gỏ lại hết tài liệu (tiền bạc+ thời gian). Mong là bài viết sẽ hữu ích với các bạn.
Nguồn trích dẫn:
sohoa.com.vn
Vn-zoom.com
Thực hiện chức năng tìm kiếm.
và kết quả là:
Không tìm được đúng hem nào, cái này rất bất tiện cho các bạn khi sử dụng từ điển. Vì hiện nay chỉ có một số cuốn từ điển là lấy file biên soạn gốc chuyển thanhf PDF, nhưng đa số lại không làm như thế mà là scan hoặc chụp hình lại cuốn đã in.
=> điều này là cho chương trình đọc PDF không thể tìm kiếm cũng như xóa, coppy.v.v.
Vậy để khắc phục mình xin hướng dẫn các bạn một cách (trong vô số cách trên mạng hihi)
Sử dụng chương trình này hén: ABBYY FineReader
-- Đây là phần mềm OCR thông minh có thể chuyển đổi tài liệu giấy, ảnh số và các tập tin PDF sang văn bản điện tử ở định dạng có thể soản thảo và tìm kiếm được. ABBYY FineReader thế hệ mới nhất (phiên bản 11) là thế hệ đầu tiên hỗ trợ nhận dạng tiếng Việt. Không chỉ nhận dạng tiếng Việt với độ chính xác lên tới 99%, ABBYY FineReader 11 còn có khả năng giữ nguyên định dạng và dàn trang của tài liệu gốc tốt hơn bao giờ hết. Bạn chỉ cần quét hoặc chụp hình văn bản rồi để ABBYY FineReader làm nốt phần còn lại. Chỉ trong chốc lát là bạn sẽ có trong tay văn bản số ở định dạng có thể soạn thảo được ! Trực quan, nhanh chóng và mạnh mẽ, ABBYY FineReader 11 giúp các cá nhân và doanh nghiệp tiết kiệm thời gian và đạt hiệu quả công việc cao hơn.
Các tính năng:
* Nhận diện chính xác và duy trì các tổ chức của văn bản
* Xuất ra XML và tích hợp với Microsoft Office Word 2003
* Hỗ trợ PDF Input/Output
* Nhận dạng đa ngôn ngữ
* Legal and Medical Dictionaries
* Dễ sử dụng
* Lưu lại kết quả thành nhiều định dạng khác nhau
* WYSIWIG Text Editor
* Hỗ trợ tách ảnh
* Xuất ra thành Microsoft PowerPoint
* Chức năng tìm kiếm với Morphology Support
* Các tùy chọn lưu ảnh cao cấp
* Các ứng dụng thêm cho việc hoàn thành và in ấn các Form
* Nhận dạng mã vạch
Home Page - [You must be registered and logged in to see this link.]
Các bạn cũng có thể tải chương trình tại đây: [You must be registered and logged in to see this link.]
Tải xong cài đặt chương trình nào. (cài như những chương trình bt khác thôi à.
Đến cách sử dụng.
Mở chương trình lên:
Chọn tính năng chuyển đổi mà bạn muốn:
Dẫn đến nguồn tài nguyên mà bạn muốn chuyển đổi.
Đợi nó chạy;
và kết quả là chúng ta có 1 file word hoàn thành, có thể chỉnh sữa bla bla hihi
*******___________*********
Vì khi file gốc của cái Pdf các bạn có là một file ảnh thì khi các bạn dử dụng chương trình converter như 1-2-3PDFConverter, PDFtoWord Converter bla bla... thì cái file word mà các bạn thu được cũng là 1 cái ảnh thôi nó không thể chỉnh sữa được mà các bạn phải tự đánh máy lại => tốn thời gian hihi.
Điểm yếu của chương trình mà mình giới thiệu là nó chỉ mới được hỗ trợ tiếng việt mới đây (trước đây nó không có tiếng việt) và nó sử dụng "Công nghệ nhận dạng chữ in OCR" nên nó sẽ bị lỗi chính tả một số chỗ (độ chính xác chỉ đạt cỡ 98%) nên sau khi chuyển đổi các bạn phải đọc lại và tự sửa cho hoàn chỉnh lại bài của mình.
Điểm mạnh của nó là công nghệ cho phép chuyển đổi tài liệu dạng ảnh (các ảnh đầu ra của máy quét, máy ảnh, file PDF dạng ảnh…) thành tài liệu có thể biên tập được (file text, file Word…)(không chỉ chuyển đổi PDF không nhé, bạn có thể chụp ảnh tài liệu rồi đưa vô nó => word luôn hehe)
Hãy tưởng tượng bạn đang có trong tay một số tài liệu giấy như sách, báo, tờ rơi quảng cáo, hợp đồng v..v… máy quét chỉ có thể giúp bạn biến những tài liệu giấy này thành tài liệu dạng ảnh. Với các tài liệu dạng ảnh, bạn chỉ có thể đọc mà không thể biên tập lại chúng trên các hệ soạn thảo điện tử hiện nay; các hệ thống tìm kiếm cũng không thể tìm được các đoạn văn bản trên những tài liệu này.
Với việc sử dụng phần mềm nhận dạng chữ in, bài toán tìm kiếm toàn văn, trích dẫn, biên soạn lại các tài liệu dạng ảnh sẽ được thực hiện rất đơn giản.
**********_______________***********
Vài kinh nghiệm cho các bạn khi dùng ABBYY v11
- Bản tài liệu là giấy khi dùng scan cần phải sạch sẽ, tương đối rõ ràng các phần chữ, khung của các bảng biểu cần phải liền nhau đừng đứt nét.Tốt nhất là sử dụng máy ảnh >5-8 megapixxel chụp lại là ok.
- Nếu tài liệu quá cũ bạn cần foto lại, làm sao cho bản foto khá rõ (ví dụ có tài liệu cũng là bản foto nhưng do cẩu thả nên làm nghiêng cạnh trang khi foto làm trang tài liệu bị mất chữ hoặc khung và chữ bị nghiêng về một góc trang).
- Nếu là sách dày bạn cần tháo rời ra để scan, đặt trang tài liệu nằm thật ngay ngắn trên mặt kính quét của máy scan (tốt nhất bạn đưa ra foto rồi dùng bản foto khổ A4 quét scan).
Những chú ý trên sẽ giúp bạn có được một bản tài liệu quét scan có các ký tự quang học rõ ràng, đầy đủ nét chữ, khung viền... và từ đây khi dùng ABBYY v11 chuyển tài liệu sang word hoặc exell thì chất lượng đảm bảo ít phải chỉnh sửa lại. Việc đưa ra máy foto để foto rồi mới scan thì chi phí vẫn còn rẻ hơn là ngồi gỏ lại hết tài liệu (tiền bạc+ thời gian). Mong là bài viết sẽ hữu ích với các bạn.
Nguồn trích dẫn:
sohoa.com.vn
Vn-zoom.com