Acrobat无法在本页面上执行OCR识别,因为:本页面包含可渲染的文本
解决方案的基本思想是: ‘另存为’较高分辨率的图片文件(如tiff文件),然后再从图片文件创建pdf文件、进行OCR识别。
具体步骤如下 (以2页science.pdf文件为例):
[1] 打开science.pdf–>文件–>另存为–>TIFF格式(这时存为science_页面_1.tiff 和science_页面_2.tiff 两个文件)
[2] 打开acrobat–>文件–>创建PDF–>从多个文件–>找到science_页面_1.tiff 和science_页面_2.tiff 合并–>保存组合文档1.pdf
[3]–>OCR文本识别组合文档1.pdf即可以了
有时候OCR识别的全是烂码有可能就是你的OCR识别设置有问题,如果你的设置OCR的文本识别不是简体中文的识别,那么可想而知,肯定是烂码。设置如下:
在PDF文档中点击工具栏文档—–OCR文本识别—–使用识别文本—-识别文本—–编辑—–OCR识别的主要语言—–简体中文