如何读取亚洲语言（中文、日文、泰文等）的PDF文件并将其存储在python中的字符串中_Python_Unicode_Nlp_Text Extraction_Pdf Reader

如何读取亚洲语言（中文、日文、泰文等）的PDF文件并将其存储在python中的字符串中

python unicode nlp

如何读取亚洲语言（中文、日文、泰文等）的PDF文件并将其存储在python中的字符串中,python,unicode,nlp,text-extraction,pdf-reader,Python,Unicode,Nlp,Text Extraction,Pdf Reader,我使用PyPDF2读取python中的PDF文件。虽然它适用于英语和欧洲语言（英文字母表），但它无法阅读日语和汉语等亚洲语言。我尝试了encode（'utf-8'），decode（'utf-8'），但似乎没有任何效果。它只是在提取文本时打印一个空白字符串我尝试过其他库，比如textract和PDFMiner，但还没有成功当我从PDF复制文本并粘贴到笔记本上时，字符会变成一些随机格式的文本（可能采用不同的编码）有人能给我指出正确的方向吗？我也面临类似的问题。我可以通过使用“tika pyth

我使用PyPDF2读取python中的PDF文件。虽然它适用于英语和欧洲语言（英文字母表），但它无法阅读日语和汉语等亚洲语言。我尝试了

encode（'utf-8'）

，

decode（'utf-8'）

，但似乎没有任何效果。它只是在提取文本时打印一个空白字符串

我尝试过其他库，比如textract和PDFMiner，但还没有成功

当我从PDF复制文本并粘贴到笔记本上时，字符会变成一些随机格式的文本（可能采用不同的编码）

有人能给我指出正确的方向吗？

我也面临类似的问题。我可以通过使用“tika python”库来解决它

import tika
tika.initVM()
from tika import parser
parsed = parser.from_file('fileName.pdf')
print(parsed["metadata"])
print(parsed["content"])

您可以在

中找到有关该库的更多信息，您显示的代码似乎没有问题。可能是PDF如何编码文本的问题，或者是库中的错误。有一个问题可能与您的问题有关。您能提供一个示例PDF吗？我能想到一些可能的原因，但没有更多的信息很难说。这里是一个日语PDF的链接-这似乎正是我要找的。非常感谢你！tika.initVM（）做什么？

import tika
tika.initVM()
from tika import parser
parsed = parser.from_file('fileName.pdf')
print(parsed["metadata"])
print(parsed["content"])