Python 3.x 如何确定文本编码问题是我的处理错误还是源pdf带来的_Python 3.x_Pdf_Utf 8_Character Encoding_Apache Tika

Python 3.x 如何确定文本编码问题是我的处理错误还是源pdf带来的

python-3.x pdf utf-8 character-encoding

Python 3.x 如何确定文本编码问题是我的处理错误还是源pdf带来的,python-3.x,pdf,utf-8,character-encoding,apache-tika,Python 3.x,Pdf,Utf 8,Character Encoding,Apache Tika,我有一个PDF的选择，我想文字我的。我使用tika解析每个pdf中的文本，并使用utf-8编码保存到.txt（我使用的是windows）大多数PDF在我得到它们之前都是OCR的，但是当我查看提取的文本时，如果我查看PDF，我会看到的“pnÁnn？c”，而不是的“Phádraig” 我是否可以验证PDF的文本层（如果这是不正确的术语，请原谅）理想情况下不需要Acrobat的完整版本听起来您正在处理带有“隐藏OCR”的扫描书籍，即PDF显示原始文档的图像，其后面有一层OCR文本。这允许您使用搜索

我有一个PDF的选择，我想文字我的。我使用tika解析每个pdf中的文本，并使用utf-8编码保存到.txt（我使用的是windows）

大多数PDF在我得到它们之前都是OCR的，但是当我查看提取的文本时，如果我查看PDF，我会看到

的“pnÁnn？c”

，而不是

的“Phádraig”

我是否可以验证PDF的文本层（如果这是不正确的术语，请原谅）理想情况下不需要Acrobat的完整版本

听起来您正在处理带有“隐藏OCR”的扫描书籍，即PDF显示原始文档的图像，其后面有一层OCR文本。这允许您使用搜索功能并将粘贴文本复制到文档中

高亮显示文本时，隐藏的字符将可见（尽管此行为可能取决于您使用的查看器）。当然，可以将高亮显示的文本复制粘贴到文本编辑器中。这将允许您判断您是否真的在处理如此糟糕的OCR质量，或者您的提取过程是否导致了mojibake。

由于OCR质量在很大程度上取决于语言资源（字典、语言模型），如果输出对盖尔语（古爱尔兰语？）这样的低资源语言来说真的那么糟糕，我不会感到惊讶。

作为快速检查，您可以突出显示+复制粘贴到编辑器。在某种程度上，结果取决于观看者，但它应该使您能够判断失真是否为纯OCR（对于古爱尔兰语，我不会感到惊讶），或者是否由于编码不匹配而产生了额外的噪声源。您能回答这个问题以获得分数吗？它确实起了作用，谢天谢地，它指出了那些是OCR错误。（如果我一直读下去，我会看到Phadraig在文本的其他地方被正确编码）