Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/18.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 如何确定文本编码问题是我的处理错误还是源pdf带来的_Python 3.x_Pdf_Utf 8_Character Encoding_Apache Tika - Fatal编程技术网

Python 3.x 如何确定文本编码问题是我的处理错误还是源pdf带来的

Python 3.x 如何确定文本编码问题是我的处理错误还是源pdf带来的,python-3.x,pdf,utf-8,character-encoding,apache-tika,Python 3.x,Pdf,Utf 8,Character Encoding,Apache Tika,我有一个PDF的选择,我想文字我的。我使用tika解析每个pdf中的文本,并使用utf-8编码保存到.txt(我使用的是windows) 大多数PDF在我得到它们之前都是OCR的,但是当我查看提取的文本时,如果我查看PDF,我会看到的“pnÁnn?c”,而不是的“Phádraig” 我是否可以验证PDF的文本层(如果这是不正确的术语,请原谅)理想情况下不需要Acrobat的完整版本听起来您正在处理带有“隐藏OCR”的扫描书籍,即PDF显示原始文档的图像,其后面有一层OCR文本。 这允许您使用搜索

我有一个PDF的选择,我想文字我的。我使用tika解析每个pdf中的文本,并使用utf-8编码保存到.txt(我使用的是windows)

大多数PDF在我得到它们之前都是OCR的,但是当我查看提取的文本时,如果我查看PDF,我会看到
的“pnÁnn?c”
,而不是
的“Phádraig”


我是否可以验证PDF的文本层(如果这是不正确的术语,请原谅)理想情况下不需要Acrobat的完整版本

听起来您正在处理带有“隐藏OCR”的扫描书籍,即PDF显示原始文档的图像,其后面有一层OCR文本。 这允许您使用搜索功能并将粘贴文本复制到文档中

高亮显示文本时,隐藏的字符将可见(尽管此行为可能取决于您使用的查看器)。 当然,可以将高亮显示的文本复制粘贴到文本编辑器中。 这将允许您判断您是否真的在处理如此糟糕的OCR质量,或者您的提取过程是否导致了mojibake。
由于OCR质量在很大程度上取决于语言资源(字典、语言模型),如果输出对盖尔语(古爱尔兰语?)这样的低资源语言来说真的那么糟糕,我不会感到惊讶。

作为快速检查,您可以突出显示+复制粘贴到编辑器。在某种程度上,结果取决于观看者,但它应该使您能够判断失真是否为纯OCR(对于古爱尔兰语,我不会感到惊讶),或者是否由于编码不匹配而产生了额外的噪声源。您能回答这个问题以获得分数吗?它确实起了作用,谢天谢地,它指出了那些是OCR错误。(如果我一直读下去,我会看到Phadraig在文本的其他地方被正确编码)