PDF文本识别图像类文字后字体为啥会扭扭歪歪的？

2020-02-24 04:38

eternaltm2020-02-24 04:38
这两天在研究怎么样可以高清晰把截屏的文字转化为PDF。。。
发现如果在Acrobat下文本识别后，原图片相对清晰的文字变形了，有什么办法可以解决？

这个是识别后的，可以在PDF搜索文字

这个是原截屏图片转化为PDF的，只是一图片，不可搜索文字。
zhouning2020-02-24 04:50
回复1#eternaltm
字体变化了吧 iOS fly ~
tiens2020-02-24 04:53
因为acrobat没掌握文档的原始字体，现在只是用clearscan把标量的图像识别出来，新的字体是在这个基础上做的一个模拟，当然就会失真了
解决的办法是用abbyy finereader做双层pdf
eternaltm2020-02-24 04:55
回复2#zhouning

我只是让Acrobat文本识别，莫非软件在OCR的过程中自动改了字体？而且这个字体也是变形的
就没有保留原有的图片格式，在另一个透明层存放识别出来的文字吗？

这样又可以搜索文字，又能保持文字的清晰度。。。

我找了半天，没有找到相应的选项可以调整
eternaltm2020-02-24 04:56
谢谢，我找来研究一下。
eternaltm2020-02-24 04:58
其实Acrobat可以提供一个选项，既然识别不出原始字体，可以让使用者选择默认相似的字体（对于Adobe这样的软件巨头而言，实现起来轻轻松松），总比现有的状况好看吧
tiens2020-02-24 05:07
技术上不难，就看取舍了。abbyy有两种方式，一种是双层pdf，保留原图像再叠加识别结果，另一种就是你说的用系统中有的字体替代。后一个方案出来的显示效果往往不好，因为原文档排版的间距疏密等细节，很难通过简单的字体置换表现出来。acrobat不是专业的OCR识别软件，所以在这方面就取了个巧，直接用clearscan，也就是以平滑方式模拟原字体的效果糊弄过去算了。