如何读取亚洲语言(中文、日文、泰文等)的PDF文件并将其存储在python中的字符串中

如何读取亚洲语言(中文、日文、泰文等)的PDF文件并将其存储在python中的字符串中,python,unicode,nlp,text-extraction,pdf-reader,Python,Unicode,Nlp,Text Extraction,Pdf Reader,我使用PyPDF2读取python中的PDF文件。虽然它适用于英语和欧洲语言(英文字母表),但它无法阅读日语和汉语等亚洲语言。我尝试了encode('utf-8'),decode('utf-8'),但似乎没有任何效果。它只是在提取文本时打印一个空白字符串 我尝试过其他库,比如textract和PDFMiner,但还没有成功 当我从PDF复制文本并粘贴到笔记本上时,字符会变成一些随机格式的文本(可能采用不同的编码) 有人能给我指出正确的方向吗?我也面临类似的问题。我可以通过使用“tika pyth

我使用PyPDF2读取python中的PDF文件。虽然它适用于英语和欧洲语言(英文字母表),但它无法阅读日语和汉语等亚洲语言。我尝试了
encode('utf-8')
decode('utf-8')
,但似乎没有任何效果。它只是在提取文本时打印一个空白字符串

我尝试过其他库,比如textract和PDFMiner,但还没有成功

当我从PDF复制文本并粘贴到笔记本上时,字符会变成一些随机格式的文本(可能采用不同的编码)


有人能给我指出正确的方向吗?

我也面临类似的问题。我可以通过使用“tika python”库来解决它

import tika
tika.initVM()
from tika import parser
parsed = parser.from_file('fileName.pdf')
print(parsed["metadata"])
print(parsed["content"])

您可以在

中找到有关该库的更多信息,您显示的代码似乎没有问题。可能是PDF如何编码文本的问题,或者是库中的错误。有一个问题可能与您的问题有关。您能提供一个示例PDF吗?我能想到一些可能的原因,但没有更多的信息很难说。这里是一个日语PDF的链接-这似乎正是我要找的。非常感谢你!tika.initVM()做什么?
import tika
tika.initVM()
from tika import parser
parsed = parser.from_file('fileName.pdf')
print(parsed["metadata"])
print(parsed["content"])