PDF文本识别图像类文字后字体为啥会扭扭歪歪的?

  • e
    eternaltm
    这两天在研究怎么样可以高清晰把截屏的文字转化为PDF。。。
    发现如果在Acrobat下文本识别后,原图片相对清晰的文字变形了,有什么办法可以解决?

    这个是识别后的,可以在PDF搜索文字

    这个是原截屏图片转化为PDF的,只是一图片,不可搜索文字。
  • z
    zhouning
    回复1#eternaltm
    字体变化了吧 iOS fly ~
  • t
    tiens
    因为acrobat没掌握文档的原始字体,现在只是用clearscan把标量的图像识别出来,新的字体是在这个基础上做的一个模拟,当然就会失真了
    解决的办法是用abbyy finereader做双层pdf
  • e
    eternaltm
    回复2#zhouning


    我只是让Acrobat文本识别,莫非软件在OCR的过程中自动改了字体?而且这个字体也是变形的
    就没有保留原有的图片格式,在另一个透明层存放识别出来的文字吗?

    这样又可以搜索文字,又能保持文字的清晰度。。。

    我找了半天,没有找到相应的选项可以调整
  • e
    eternaltm
    谢谢,我找来研究一下。
  • e
    eternaltm
    其实Acrobat可以提供一个选项,既然识别不出原始字体,可以让使用者选择默认相似的字体(对于Adobe这样的软件巨头而言,实现起来轻轻松松),总比现有的状况好看吧
  • t
    tiens
    技术上不难,就看取舍了。abbyy有两种方式,一种是双层pdf,保留原图像再叠加识别结果,另一种就是你说的用系统中有的字体替代。后一个方案出来的显示效果往往不好,因为原文档排版的间距疏密等细节,很难通过简单的字体置换表现出来。acrobat不是专业的OCR识别软件,所以在这方面就取了个巧,直接用clearscan,也就是以平滑方式模拟原字体的效果糊弄过去算了。