搜索 问答 Rules & Tips
1. 遵守中国大陆相关法律法规
2. 在虫部落的提问准则
3. 禁止发布代下载类求助信息
4. 特别提倡抛砖引玉的问题
5. 扩展阅读:提问的智慧

求助:PDF 文档中文字无法搜索,已排除是图片扫描格式

查看: 26878|回复: 14
橙子 发表于 2019-7-20 10:55:00
下面百度云盘链接中的 pdf 文档,“文字搜索查找”功能失效。为何呢?但是文字的选择,进行“加亮”等操作是正常的,说明不是图片扫描格式的。我用adobe 进行了增强扫描操作,还是无果。Google了,也还是没找到解法。

所以,特来求助诸位虫友,希望能弄明白其中的原理。谢谢!

(pdf文件为2.46M,超出2M的限制,无法上传)

pdf(源文件)百度云盘下载

链接: https://pan.baidu.com/s/1Af-oBos9Qw6i7i5MO-BEMw
提取码: xu99


1.png

2.png
贡水蜿蜒 发表于 2019-7-20 15:26:30
用泰比光学这个软件对整篇文档进行识别之后,就能搜索了
wudunxu 发表于 2019-7-20 12:38:46
我帮你重新编译了一遍,你下载阅读试试。链接: https://pan.baidu.com/s/1IgibqpfJ1c1EfQ3X7A-u3g 提取码: 3b8w
whistle 发表于 2019-7-20 15:45:39
贡水蜿蜒 发表于 2019-7-20 15:26
用泰比光学这个软件对整篇文档进行识别之后,就能搜索了

这个方法不错啊
 楼主| 橙子 发表于 2019-7-21 08:44:39
wudunxu 发表于 2019-7-20 12:38
我帮你重新编译了一遍,你下载阅读试试。链接: https://pan.baidu.com/s/1IgibqpfJ1c1EfQ3X7A-u3g 提取码:  ...

谢谢,确实可以搜索了。不如授人予渔,想请问一下你是如何解决的呢?学习一下。(我以为adobe的增强识别功能是无比强大了的)
 楼主| 橙子 发表于 2019-7-21 08:47:15
wudunxu 发表于 2019-7-20 12:38
我帮你重新编译了一遍,你下载阅读试试。链接: https://pan.baidu.com/s/1IgibqpfJ1c1EfQ3X7A-u3g 提取码:  ...

更加疑惑的是,既然源文档是文本格式的,其是如何做到限制搜索的呢(而选择文本加亮等操作是正常的)
藤井树 发表于 2019-7-21 09:55:27
abbyy finereader可以
wudunxu 发表于 2019-7-21 10:01:18
橙子 发表于 2019-7-21 08:47
更加疑惑的是,既然源文档是文本格式的,其是如何做到限制搜索的呢(而选择文本加亮等操作是正常的) ...

你上传的pdf中,作者已经通过技术处理,把文字做了转码处理,即便你肉眼看到的是汉字,但实际上复制出来已经是乱码,不信的话你可以复制里面的一句话,粘贴后发现是不可读的。这个过程一般是不可逆的,除非知道转码加密算法才可以还原。

我上传的pdf,实际上是重新做的文档,基于作者Github开源的内容(https://github.com/xiaolai/regular-investing-in-box),我再借助本地工具,直接转化为你想要的的pdf版本。
MediciChen 发表于 2019-7-21 10:20:21
万兴PDF、FineReader、Transformer、福昕PDF编辑等都可以实现PDF扫描版文档经过“可搜索PDF”而被识别。
独角仙之夜 发表于 2019-7-21 22:22:51
这种加密方法如何实现?值得学习啊{:5_141:},实在不行只能文字识别了{:5_144:}
李世飞 发表于 2019-7-22 09:02:10
有人知道这个是如何实现的吗,感觉很是牛逼!
 楼主| 橙子 发表于 2019-7-22 17:54:44
wudunxu 发表于 2019-7-21 10:01
你上传的pdf中,作者已经通过技术处理,把文字做了转码处理,即便你肉眼看到的是汉字,但实际上复制出来 ...

好厉害,谢谢!对于github,我的水平也就是仅次于纯浏览阶段。等你有空的时候,就拿我提问的pdf为例子,分享一篇帖子,专门讲解转化的过程与步骤,想必虫友们都很收益。
Lucia 发表于 2019-7-23 09:37:48
wudunxu 发表于 2019-7-21 10:01
你上传的pdf中,作者已经通过技术处理,把文字做了转码处理,即便你肉眼看到的是汉字,但实际上复制出来 ...

我同样也遇到了这个问题,点开github的链接木有找到相关内容,同请大神有空写个详细教程,十分感谢~
light__shine 发表于 2019-7-23 10:35:51
在adobe DC里,增强扫描,识别文本,就可以搜索了,
 楼主| 橙子 发表于 2019-7-27 17:39:00
light__shine 发表于 2019-7-23 10:35
在adobe DC里,增强扫描,识别文本,就可以搜索了,

我就是用过adobe DC试过了,无果,这个PDF可能比较特殊。所以才进一步求助的。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则社区广场RSS

Build with for "make search easier" Copyright © 2013-2025. Powered by Discuz! GMT+8, 2025-5-3 06:33

快速回复 返回顶部 返回列表