Python 3.x 如何确定文本编码问题是我的处理错误还是源pdf带来的
我有一个PDF的选择,我想文字我的。我使用tika解析每个pdf中的文本,并使用utf-8编码保存到.txt(我使用的是windows) 大多数PDF在我得到它们之前都是OCR的,但是当我查看提取的文本时,如果我查看PDF,我会看到Python 3.x 如何确定文本编码问题是我的处理错误还是源pdf带来的,python-3.x,pdf,utf-8,character-encoding,apache-tika,Python 3.x,Pdf,Utf 8,Character Encoding,Apache Tika,我有一个PDF的选择,我想文字我的。我使用tika解析每个pdf中的文本,并使用utf-8编码保存到.txt(我使用的是windows) 大多数PDF在我得到它们之前都是OCR的,但是当我查看提取的文本时,如果我查看PDF,我会看到的“pnÁnn?c”,而不是的“Phádraig” 我是否可以验证PDF的文本层(如果这是不正确的术语,请原谅)理想情况下不需要Acrobat的完整版本听起来您正在处理带有“隐藏OCR”的扫描书籍,即PDF显示原始文档的图像,其后面有一层OCR文本。 这允许您使用搜索
的“pnÁnn?c”
,而不是的“Phádraig”
我是否可以验证PDF的文本层(如果这是不正确的术语,请原谅)理想情况下不需要Acrobat的完整版本听起来您正在处理带有“隐藏OCR”的扫描书籍,即PDF显示原始文档的图像,其后面有一层OCR文本。 这允许您使用搜索功能并将粘贴文本复制到文档中 高亮显示文本时,隐藏的字符将可见(尽管此行为可能取决于您使用的查看器)。 当然,可以将高亮显示的文本复制粘贴到文本编辑器中。 这将允许您判断您是否真的在处理如此糟糕的OCR质量,或者您的提取过程是否导致了mojibake。
由于OCR质量在很大程度上取决于语言资源(字典、语言模型),如果输出对盖尔语(古爱尔兰语?)这样的低资源语言来说真的那么糟糕,我不会感到惊讶。作为快速检查,您可以突出显示+复制粘贴到编辑器。在某种程度上,结果取决于观看者,但它应该使您能够判断失真是否为纯OCR(对于古爱尔兰语,我不会感到惊讶),或者是否由于编码不匹配而产生了额外的噪声源。您能回答这个问题以获得分数吗?它确实起了作用,谢天谢地,它指出了那些是OCR错误。(如果我一直读下去,我会看到Phadraig在文本的其他地方被正确编码)