无法从pdf中复制确切的印地文内容

我不能从pdf文件复制印地文内容。 当我试图复制/粘贴该内容时,它将更改为不同的印地文字符。

例-

原文 – निर्वाचक

粘贴完成后

它显示这样。

任何人都可以帮助我得到确切的印地文字符。

这个问题和这个答案中讨论的问题类似, 那里的示例文档的外观也提醒了这里的文档 :

简而言之

您的文档本身提供的信息,例如头条中的字母“निर्वाचक”代表文字“ननररचकक्राक्दी”。 你应该问你的文件来源的文件版本,其中的字体信息是没有误导的。 如果这是不可能的,你应该去OCR。

详细

第一页的第一行是由页面内容stream中的以下操作生成的:

/9 239 Tf ( !"#$%&) Tj 

第一行select大小为239的字体名称9 (页面开始处的操作缩小了一切)。 第二行导致字形被打印。 这些字形在括号中使用该字体的自定义编码引用。

PDF的第一页上的字体9包含一个ToUnicode地图。 这张地图特别是地图

 <20> <20> <0928> <21> <21> <0928> <22> <22> <0930> <23> <23> <0930> <24> <24> <0930> 

即代码0x20('')和0x21('!')都映射到Unicode代码点0x0928('न')和代码0x22('“'),0x23('#')和0x24 ')全部转换为Unicode代码点0x0930('र')。

因此,完全正确显示( !"#$%&) ”的内容(根据文档中的信息)被提取/复制并粘贴为“ननरररचक”。

Interesting Posts