在PDF文档中搜索希腊字符_Pdf_Unicode_Utf 8_Character Encoding

在PDF文档中搜索希腊字符

pdf unicode utf-8 character-encoding

在PDF文档中搜索希腊字符,pdf,unicode,utf-8,character-encoding,Pdf,Unicode,Utf 8,Character Encoding,我不知道如何在pdf中搜索希腊字母。我该怎么做？理想情况下，我可以在pdf查看器软件包中完成这项工作从我看到的论坛帖子中，希腊字母不属于pdf规范中包含的标准unicode字符。我已经找出了我做错的地方，这是非常基本的我可以通过使用字符映射或切换到希腊字母键盘来搜索希腊字母，例如αβγ 这通常可以找到希腊字符。不过，许多PDF不能正确识别希腊字符，而是对具有其他形状的字符进行了gobbledygook近似。这可能取决于PDF的制作方式。为什么不能检查字母是否匹配[\u0391-\u03A9\

我不知道如何在pdf中搜索希腊字母。我该怎么做？理想情况下，我可以在pdf查看器软件包中完成这项工作

从我看到的论坛帖子中，希腊字母不属于pdf规范中包含的标准unicode字符。

我已经找出了我做错的地方，这是非常基本的

我可以通过使用字符映射或切换到希腊字母键盘来搜索希腊字母，例如αβγ

这通常可以找到希腊字符。不过，许多PDF不能正确识别希腊字符，而是对具有其他形状的字符进行了gobbledygook近似。这可能取决于PDF的制作方式。

为什么不能检查字母是否匹配[\u0391-\u03A9\u03B1-\u03C9]？当我使用xpdf中的pdftotext命令时，希腊字符显示为拉丁字符。我认为这是因为utf-8中的pdftotext输出不包含希腊字母，我可以使用什么pdf2text输出设置来包含希腊字符？不过，我最好在pdf XChange viewer之类的程序中搜索这些字符。我只能在搜索框中输入我键入的字母，因此如果您明白我的意思，我不知道如何表示我要搜索unicode编码，而不是组成unicode编码的字符（例如。\u0391）。至于您的第一条评论，您是否尝试过“pdftotext-enc UTF-8 input.pdf output.txt”？ASCII7似乎可以修复连字错误，但无法修复希腊字母。当我在emacs中查看时，UTF-8给出了f连字和希腊字母的错误。当然，我可能没有正确的emacs插件，这可能是我问题的根源。在emacs中看到希腊字母并不能真正解决我的问题。我需要一个附加的软件包，如pdf交换，QIQA或类似的，允许搜索希腊字符。