PDF中的奇怪(Unicode?)编码
我有一个特定的PDF文件,希伯来文,显示正确,但当复制粘贴它的胡言乱语。 使用和'xxd',我可以得到与Unicode非常相似的编码,但需要一些转换 希伯来语单词“מגרת”是Unicode中的PDF中的奇怪(Unicode?)编码,pdf,unicode,character-encoding,hebrew,Pdf,Unicode,Character Encoding,Hebrew,我有一个特定的PDF文件,希伯来文,显示正确,但当复制粘贴它的胡言乱语。 使用和'xxd',我可以得到与Unicode非常相似的编码,但需要一些转换 希伯来语单词“מגרת”是Unicode中的{d79e d792 d7a8 d7a1 d7aa},在这里编码为{c39e c392 c3a8 c3a1 c3aa} 这是已知的编码吗 当然,我可以编写一个小例程,将所有c3前缀更改为d7,但如果可能的话,我宁愿使用“iconv”。它似乎是UTF8。请参见:$cat tmp.txt;文件-i tmp.t
{d79e d792 d7a8 d7a1 d7aa}
,在这里编码为{c39e c392 c3a8 c3a1 c3aa}
这是已知的编码吗
当然,我可以编写一个小例程,将所有
c3
前缀更改为d7
,但如果可能的话,我宁愿使用“iconv”。它似乎是UTF8。请参见:$cat tmp.txt;文件-i tmp.txt;xxd tmp.txtמגרסתtmp.txt:text/plain;字符集=utf-8 0000000:d79e d792 d7a8 d7a1 d7aa 0a。。。。。。。。。。。