在PDF文档中搜索希腊字符

在PDF文档中搜索希腊字符,pdf,unicode,utf-8,character-encoding,Pdf,Unicode,Utf 8,Character Encoding,我不知道如何在pdf中搜索希腊字母。我该怎么做?理想情况下,我可以在pdf查看器软件包中完成这项工作 从我看到的论坛帖子中,希腊字母不属于pdf规范中包含的标准unicode字符。我已经找出了我做错的地方,这是非常基本的 我可以通过使用字符映射或切换到希腊字母键盘来搜索希腊字母,例如αβγ 这通常可以找到希腊字符。不过,许多PDF不能正确识别希腊字符,而是对具有其他形状的字符进行了gobbledygook近似。这可能取决于PDF的制作方式。为什么不能检查字母是否匹配[\u0391-\u03A9\

我不知道如何在pdf中搜索希腊字母。我该怎么做?理想情况下,我可以在pdf查看器软件包中完成这项工作


从我看到的论坛帖子中,希腊字母不属于pdf规范中包含的标准unicode字符。

我已经找出了我做错的地方,这是非常基本的

我可以通过使用字符映射或切换到希腊字母键盘来搜索希腊字母,例如αβγ


这通常可以找到希腊字符。不过,许多PDF不能正确识别希腊字符,而是对具有其他形状的字符进行了gobbledygook近似。这可能取决于PDF的制作方式。

为什么不能检查字母是否匹配[\u0391-\u03A9\u03B1-\u03C9]?当我使用xpdf中的pdftotext命令时,希腊字符显示为拉丁字符。我认为这是因为utf-8中的pdftotext输出不包含希腊字母,我可以使用什么pdf2text输出设置来包含希腊字符?不过,我最好在pdf XChange viewer之类的程序中搜索这些字符。我只能在搜索框中输入我键入的字母,因此如果您明白我的意思,我不知道如何表示我要搜索unicode编码,而不是组成unicode编码的字符(例如。\u0391)。至于您的第一条评论,您是否尝试过“pdftotext-enc UTF-8 input.pdf output.txt”?ASCII7似乎可以修复连字错误,但无法修复希腊字母。当我在emacs中查看时,UTF-8给出了f连字和希腊字母的错误。当然,我可能没有正确的emacs插件,这可能是我问题的根源。在emacs中看到希腊字母并不能真正解决我的问题。我需要一个附加的软件包,如pdf交换,QIQA或类似的,允许搜索希腊字符。