PDF文本识别图像类文字后字体为啥会扭扭歪歪的?
- zhouning回复1#eternaltm
字体变化了吧 iOS fly ~ - tiens因为acrobat没掌握文档的原始字体,现在只是用clearscan把标量的图像识别出来,新的字体是在这个基础上做的一个模拟,当然就会失真了
解决的办法是用abbyy finereader做双层pdf - eternaltm回复2#zhouning
我只是让Acrobat文本识别,莫非软件在OCR的过程中自动改了字体?而且这个字体也是变形的
就没有保留原有的图片格式,在另一个透明层存放识别出来的文字吗?
这样又可以搜索文字,又能保持文字的清晰度。。。
我找了半天,没有找到相应的选项可以调整 - eternaltm谢谢,我找来研究一下。
- eternaltm其实Acrobat可以提供一个选项,既然识别不出原始字体,可以让使用者选择默认相似的字体(对于Adobe这样的软件巨头而言,实现起来轻轻松松),总比现有的状况好看吧
- tiens技术上不难,就看取舍了。abbyy有两种方式,一种是双层pdf,保留原图像再叠加识别结果,另一种就是你说的用系统中有的字体替代。后一个方案出来的显示效果往往不好,因为原文档排版的间距疏密等细节,很难通过简单的字体置换表现出来。acrobat不是专业的OCR识别软件,所以在这方面就取了个巧,直接用clearscan,也就是以平滑方式模拟原字体的效果糊弄过去算了。