PDF中的奇怪（Unicode？）编码_Pdf_Unicode_Character Encoding_Hebrew

PDF中的奇怪（Unicode？）编码

pdf unicode character-encoding

PDF中的奇怪（Unicode？）编码,pdf,unicode,character-encoding,hebrew,Pdf,Unicode,Character Encoding,Hebrew,我有一个特定的PDF文件，希伯来文，显示正确，但当复制粘贴它的胡言乱语。使用和'xxd'，我可以得到与Unicode非常相似的编码，但需要一些转换希伯来语单词“מגרת”是Unicode中的{d79e d792 d7a8 d7a1 d7aa}，在这里编码为{c39e c392 c3a8 c3a1 c3aa} 这是已知的编码吗当然，我可以编写一个小例程，将所有c3前缀更改为d7，但如果可能的话，我宁愿使用“iconv”。它似乎是UTF8。请参见：$cat tmp.txt；文件-i tmp.t

我有一个特定的PDF文件，希伯来文，显示正确，但当复制粘贴它的胡言乱语。使用和'xxd'，我可以得到与Unicode非常相似的编码，但需要一些转换

希伯来语单词“מגרת”是Unicode中的

{d79e d792 d7a8 d7a1 d7aa}

，在这里编码为

{c39e c392 c3a8 c3a1 c3aa}

这是已知的编码吗

当然，我可以编写一个小例程，将所有

c3

前缀更改为

d7

，但如果可能的话，我宁愿使用“iconv”。

它似乎是UTF8。请参见：$cat tmp.txt；文件-i tmp.txt；xxd tmp.txtמגרסתtmp.txt:text/plain；字符集=utf-8 0000000:d79e d792 d7a8 d7a1 d7aa 0a。。。。。。。。。。。