PDF中的奇怪(Unicode?)编码

PDF中的奇怪(Unicode?)编码,pdf,unicode,character-encoding,hebrew,Pdf,Unicode,Character Encoding,Hebrew,我有一个特定的PDF文件,希伯来文,显示正确,但当复制粘贴它的胡言乱语。 使用和'xxd',我可以得到与Unicode非常相似的编码,但需要一些转换 希伯来语单词“מגרת”是Unicode中的{d79e d792 d7a8 d7a1 d7aa},在这里编码为{c39e c392 c3a8 c3a1 c3aa} 这是已知的编码吗 当然,我可以编写一个小例程,将所有c3前缀更改为d7,但如果可能的话,我宁愿使用“iconv”。它似乎是UTF8。请参见:$cat tmp.txt;文件-i tmp.t

我有一个特定的PDF文件,希伯来文,显示正确,但当复制粘贴它的胡言乱语。 使用和'xxd',我可以得到与Unicode非常相似的编码,但需要一些转换

希伯来语单词“מגרת”是Unicode中的
{d79e d792 d7a8 d7a1 d7aa}
,在这里编码为
{c39e c392 c3a8 c3a1 c3aa}

这是已知的编码吗


当然,我可以编写一个小例程,将所有
c3
前缀更改为
d7
,但如果可能的话,我宁愿使用“iconv”。

它似乎是UTF8。请参见:$cat tmp.txt;文件-i tmp.txt;xxd tmp.txtמגרסתtmp.txt:text/plain;字符集=utf-8 0000000:d79e d792 d7a8 d7a1 d7aa 0a。。。。。。。。。。。