搜索 问答 Rules & Tips
1. 遵守中国大陆相关法律法规
2. 在虫部落的提问准则
3. 禁止发布代下载类求助信息
4. 特别提倡抛砖引玉的问题
5. 扩展阅读:提问的智慧

印地语和泰米尔语 PDF 文本正常显示但复制和粘贴乱码

查看: 3004|回复: 23
1
dyinfumicky 发表于 2021-11-24 08:54:00
已解决 100Bit
如题,印地语和泰米尔语PDF文本正常显示但复制和粘贴后乱码。

本人不懂印地语和泰米尔语,但工作中需要翻译PDF格式的这两种文本,发现即使文本可以复制和粘贴,但粘贴到谷歌翻译中的文字全是乱码的,看网上说需要下载这两种语言的字体,我下载安装了以后问题依旧,是不是需要我将本地语言也切换到印地语或泰米尔语?我的电脑是中文语言。

求各位大神指点迷津!
羚芈 发表于 2021-11-24 08:54:01
确定往 OCR 这个方向探索的话可以找一下 hindi OCR 的软件,初步测试这里一个效果还不错。

补充内容 (2021-11-24 11:32):
待测试1 https://www.i2ocr.com/pdf-ocr-hindi
待测试2 https://www.ocrconvert.com/hindi-ocr

补充内容 (2021-11-26 10:55):
白描的识别效果也不错。
坷泽 发表于 2021-11-24 09:06:51
复制粘贴后乱码,个人推测是你所要粘贴的平台可能没有该语言。

可以自行测试,比如复制泰米尔语PDF文本至浏览器,微信消息框等,都正常那就初步排除PDF文本问题。可以试着先将谷歌翻译设置为印地语再进行尝试,如若还不行,更换翻译软件解决你目前的刚需。

补充内容 (2021-11-24 09:09):
海词词典、有道翻译、欧陆词典、Deepl
 楼主| dyinfumicky 发表于 2021-11-24 09:14:30
ccoolllaaa 发表于 2021-11-24 09:06
复制粘贴后乱码,个人推测是你所要粘贴的平台可能没有该语言。

可以自行测试,比如复制泰米尔语PDF文本至 ...

应该不是PDF文本的问题,因为所有这两种语言的PDF都无法显示,不管粘贴到谷歌在线翻译还是浏览器等。我所知道的,除了谷歌翻译和QTranslate (内置也有谷歌),其他所知的翻译工具都不支持翻译印地语和泰米尔语。
坷泽 发表于 2021-11-24 09:23:17
dyinfumicky 发表于 2021-11-24 09:14
应该不是PDF文本的问题,因为所有这两种语言的PDF都无法显示,不管粘贴到谷歌在线翻译还是浏览器等。我所 ...

谷歌在线翻译应该也没问题呀,我尝试了翻译印地语是可以的

补充内容 (2021-11-24 09:24):
有小文件吗可以帮你尝试下看看
羚芈 发表于 2021-11-24 09:33:35
文本复制后是乱码可能是 OCR 时没有对应的语言,用 Adobe Acrobat 识别时选择对应的语言看一下?Abbyy 也可以备选作 OCR 的工具,另外可以想办法去掉双层 pdf 中的文字层,再识别,避免原文字干扰。比如选择打印到虚拟打印机。
 楼主| dyinfumicky 发表于 2021-11-24 09:47:48
ccoolllaaa 发表于 2021-11-24 09:23
谷歌在线翻译应该也没问题呀,我尝试了翻译印地语是可以的

补充内容 (2021-11-24 09:24):

我的意思是从我打开的PDF中复制文本到谷歌翻译中,被复制的文字就乱码了。谷歌翻译支持的文字是包含印地语和泰米尔语的,一般网页文字自动识别即可。
如附件。

O9qa53knN.pdf

100.69 KB, 下载次数: 12, 下载积分: Bit -1

 楼主| dyinfumicky 发表于 2021-11-24 09:50:39
羚芈 发表于 2021-11-24 09:33
文本复制后是乱码可能是 OCR 时没有对应的语言,用 Adobe Acrobat 识别时选择对应的语言看一下?Abbyy 也可 ...

好像ADOBE和ABBYY都没有这两种语言,很尴尬哈哈。。。
羚芈 发表于 2021-11-24 10:20:48
dyinfumicky 发表于 2021-11-24 09:50
好像ADOBE和ABBYY都没有这两种语言,很尴尬哈哈。。。

记得 abbyy 的语言还是很丰富的,有没有在更多语言里找一下呢?
 楼主| dyinfumicky 发表于 2021-11-24 10:22:23
羚芈 发表于 2021-11-24 10:20
记得 abbyy 的语言还是很丰富的,有没有在更多语言里找一下呢?

确定没有。
坷泽 发表于 2021-11-24 13:04:43
记录了日期为 2021 年 11 月 1 日的第 044/2021 号监视警察局案件。
在案件调查过程中,根据 Hon'ble Court 的搜查令,Ajay Kumar Thakur 先生的监督由调查局小组在 Search 先生的 C./303 号公寓进行正在完成,其中到目前为止 1,00,000 卢比/-(十万)现金,价值超过 4,50,000 卢比/-的金银首饰,在不同银行的 11 个账户中约 90,000,000 卢比。/- (九十万)在 LIC 和其他投资文件的 22 项政策中超过 60,000,000 卢比/-(六十万)的投资已收回。在搜查过程中,以他们及其家人的名义在不同地点找到了三处房屋/单位和土地文件等。与子女接受高等教育的支出和在国外完成的教育有关的文件也已被追回。搜索操作已开启。
值得注意的是,在他提交的年度房产申报表中,很多投资都没有提及。通过阅读与研究投资相关的记录,可以获得有关获得更多资产的信息。
坷泽 发表于 2021-11-24 13:04:47
记录了日期为 2021 年 11 月 1 日的第 044/2021 号监视警察局案件。
在案件调查过程中,根据 Hon'ble Court 的搜查令,Ajay Kumar Thakur 先生的监督由调查局小组在 Search 先生的 C./303 号公寓进行正在完成,其中到目前为止 1,00,000 卢比/-(十万)现金,价值超过 4,50,000 卢比/-的金银首饰,在不同银行的 11 个账户中约 90,000,000 卢比。/- (九十万)在 LIC 和其他投资文件的 22 项政策中超过 60,000,000 卢比/-(六十万)的投资已收回。在搜查过程中,以他们及其家人的名义在不同地点找到了三处房屋/单位和土地文件等。与子女接受高等教育的支出和在国外完成的教育有关的文件也已被追回。搜索操作已开启。
值得注意的是,在他提交的年度房产申报表中,很多投资都没有提及。通过阅读与研究投资相关的记录,可以获得有关获得更多资产的信息。
坷泽 发表于 2021-11-24 13:07:52
你可以尝试这个工具,http://rajbhasha.net/drupal514/K ... Unicode%20Converter

先将复制文字转为unicode再将转换好的文字复制所需要地方
发散:搜索可自动转换unicode的应用软件或网页即可一次性阅读
坷泽 发表于 2021-11-24 13:07:56
你可以尝试这个工具,http://rajbhasha.net/drupal514/K ... Unicode%20Converter

先将复制文字转为unicode再将转换好的文字复制所需要地方
发散:搜索可自动转换unicode的应用软件或网页即可一次性阅读

补充内容 (2021-11-24 13:17):
分享的页面里就有转换器可以下载,可以自行尝试,
 楼主| dyinfumicky 发表于 2021-11-25 08:23:09
ccoolllaaa 发表于 2021-11-24 13:07
你可以尝试这个工具,http://rajbhasha.net/drupal514/Kruti%20Dev%20Hindi%20typing%20with%20Mangal%20Un ...

试了试你的工具,转换不成功,不知道是不知道是不是我搞的不对,另一个虫友给的两个工具倒是可以,决定把分给他了啊哈哈。
 楼主| dyinfumicky 发表于 2021-11-25 08:23:51
ccoolllaaa 发表于 2021-11-24 13:07
你可以尝试这个工具,http://rajbhasha.net/drupal514/Kruti%20Dev%20Hindi%20typing%20with%20Mangal%20Un ...

不过欢迎继续对此展开交流,发现新的可用工具继续给你加分!
 楼主| dyinfumicky 发表于 2021-11-25 08:25:04
羚芈 发表于 2021-11-24 11:22
确定往 OCR 这个方向探索的话可以找一下 hindi OCR 的软件,初步测试这里一个效果还不错。

补充内容 (2021 ...

这两个工具都可以使用,太好了。谢谢虫友帮助!
坷泽 发表于 2021-11-25 09:12:17
dyinfumicky 发表于 2021-11-25 08:23
试了试你的工具,转换不成功,不知道是不知道是不是我搞的不对,另一个虫友给的两个工具倒是可以,决定把 ...

哭了
坷泽 发表于 2021-11-25 09:20:16

其实是的主要两种方式,一种OCR还有就是转换编译,不成功的原因可能是,我系统安装了你PDF文件的字体吧,这是我想到的差异。
右击文件属性可查看文档字体,然后对应下载安装字体。

回溯:我试过系统安装字体,在Adobe acrobat dc的font里放置印地语均未成功,但外网友说他可以我也搞不懂,试了很多遍。
哭了呀花了1个小时还没成功的时候 ,为了沉没成本继续在论坛逛才找到这个方法

哈哈哈哈哈哈但是找到好用的就好

补充内容 (2021-11-25 09:23):
好奇怪,我卸载了系统印地语但是也成功了呀

补充内容 (2021-11-25 10:03):
网页上的转换器也是可以用的,只是转换过后的文字无法复制目前没有找到原因,解决办法,我右击时有发送给onenote,在onenote里复制是可以的

补充内容 (2021-11-25 10:03):
此方法可作为离线使用
 楼主| dyinfumicky 发表于 2021-11-25 11:23:00
ccoolllaaa 发表于 2021-11-25 09:20
其实是的主要两种方式,一种OCR还有就是转换编译,不成功的原因可能是,我系统安装了你PDF文件的字体吧, ...

我电脑上也有OneNote为什么没这个选项,难道是我在哪里设置了关闭么。。。
 楼主| dyinfumicky 发表于 2021-11-25 14:21:29
ccoolllaaa 发表于 2021-11-25 09:20
其实是的主要两种方式,一种OCR还有就是转换编译,不成功的原因可能是,我系统安装了你PDF文件的字体吧, ...

我感觉挺抱歉的,不知道可否通过其他渠道给你点分~~
坷泽 发表于 2021-11-25 16:53:21
dyinfumicky 发表于 2021-11-25 14:21
我感觉挺抱歉的,不知道可否通过其他渠道给你点分~~

不用不用哈哈哈哈哈哈 开玩笑的
对我自己而言也是练习搜索解题技能虽然没得到100bit我很肉疼,但是你问题有被解决就好哈哈哈哈

补充内容 (2021-11-25 16:55):
就很奇怪,bit一点用都没,但我愿意为它去付出努力,谁来分析一下
 楼主| dyinfumicky 发表于 2021-11-25 20:26:26
ccoolllaaa 发表于 2021-11-25 16:53
不用不用哈哈哈哈哈哈 开玩笑的
对我自己而言也是练习搜索解题技能虽然没得到100bit我很肉疼,但是你问题 ...

我每天都打开。。感觉比上班打开还勤(公司上班并不打开哈哈)。
 楼主| dyinfumicky 发表于 2021-11-25 20:26:46
dyinfumicky 发表于 2021-11-25 20:26
我每天都打开。。感觉比上班打开还勤(公司上班并不打开哈哈)。

打卡
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则蛙先知 - AI 玩家社区 🚧

Build with for "make search easier" Copyright © 2013-2024. Powered by Discuz! GMT+8, 2024-4-24 01:20

快速回复 返回顶部 返回列表