许多影印版的 PDF 书籍资料,在阅读的时候都有一个让人很烦恼的问题:无法复制书中的文字内容!尤其这几天在阅读学习《Python 数据可视化》(科斯·拉曼(Kirthi Raman) 著 )这本书,想要记录一下学习笔记复制一些书中文字的时候,无法复制文字的问题简直让我忍无可忍。


Google 百度了一番,尝试了 Chrome 打开 PDF 后,在打印中另存为 PDF、Smallpdf 在线移除密码,以及其他的一些 PDF 解除加密都没有效果。后来才知道,原来我从经管之家使用 100 个论坛币下载的这本《Python 数据可视化》应该是一本影印版的 PDF 文件,而非加密的文档,一开始尝试 PDF 解除加密的解决方法方向本来就不对。应该变成如何从扫描版 PDF 文件中复制文字。


关于 PDF 扫描版与非扫描版,于是 Google 了一下,有这么个答案:

PDF 非扫描版就是直接转换的 PDF 文件,并且加了密。可以通过软件解密后编辑或转换。PDF 扫描版就是通过扫描仪扫描生成位图格式的 PDF 文件,并且加了密。此文件以图片形式存在,可以通过软件解密后要进行 OCR 识别后进行编辑文字。识别的好与坏要根据扫描的分辨率来确定。


扫描版与非扫描版 PDF 一般都可以单个文字选中复制修改,最大的区别是 PDF 文字版里面的文字是以矢量格式存储的,无论怎么放大都不会有锯齿或者失真的情况,而扫描版的 PDF 文件,在性质上属于位图格式的,文字是以图片的形式存储的,放大后会有失真或者严重的锯齿情况。


那么,回到原来的问题,扫描版的 PDF 如何复制里面的文字?我是参考了《Acrobat2018怎么使用OCR识别扫描版PDF中的文字?》,完美解决了这个问题。


Acrobat 2017/2018 中不像之前的版本在编辑中能找到写有 OCR 功能的选项,那是因为 ocr 识别改名为“编辑文本和图像”了,下面我们就来看看 Acrobat2018 怎么使用 OCR 识别扫描版 PDF 中的文字教程。




1、打开要识别的PDF,如果该PDF没有加密,那么点击“编辑-编辑文本和图像”或者在任意页面鼠标右击,选择“编辑图像”,就可以进行OCR识别了。

image.png


2、进行第一步之后,默认执行的单页的识别,但是如果你要识别整个PDF文件,怎么办?

3、点击图中右下角扫描文档下的“设置”,在弹出的窗口中勾选“所有页面均可编辑”,点击确定,再点击编辑图像时,就可以全篇识别了。

2.jpg

0.png


4、但是面对加密的文档,会提示需要“输入口令”,这个时候需要使用软件PDFPasswordRmover,移除PDF的密码,就可以按照上面的方法愉快的OCR识别了。有时也会出现,点了“编辑图像”,但是未能进行OCR识别,只是把当页识别成一整张图片,我也用PDFPasswordRmover处理了一下,然后再进行OCR识别,就没问题了。

4.jpg


以上就是Acrobat2018找不到OCR识别的原因,直接使用编辑文本和图像也是一样的功能,希望大家喜欢。