Python 我需要从PDF文件中提取文本,并创建一个新的.txt文件

Python 我需要从PDF文件中提取文本,并创建一个新的.txt文件,python,pdf,python-3.7,pypdf2,Python,Pdf,Python 3.7,Pypdf2,我需要一个PYTHON脚本的帮助来阅读PDF文件,复制上面的每个单词,并将它们放在一个新的.txt文件中(每个单词必须有一行);然后删除重复的单词,然后计数,并在最后一行打印计数您是否在Stackoverflow中搜索答案 在这里,您可以找到一些关于如何从pdf文件中提取文本的非常好的答案(请看Jakobovski的答案): 在这里,您可以找到有关写入/编辑/创建.txt文件的信息: 安装这些库 PyPDF2(将简单的、基于文本的PDF文件转换为Python可读的文本) textract(将非

我需要一个PYTHON脚本的帮助来阅读PDF文件,复制上面的每个单词,并将它们放在一个新的.txt文件中(每个单词必须有一行);然后删除重复的单词,然后计数,并在最后一行打印计数

您是否在Stackoverflow中搜索答案

在这里,您可以找到一些关于如何从pdf文件中提取文本的非常好的答案(请看Jakobovski的答案):

在这里,您可以找到有关写入/编辑/创建.txt文件的信息:
安装这些库

PyPDF2(将简单的、基于文本的PDF文件转换为Python可读的文本)

textract(将非平凡的扫描PDF文件转换为Python可读的文本)

nltk(清除短语并将其转换为关键字)

这些库中的每一个都可以通过以下命令安装在side terminal(在macOS上)中:

请参见本教程

使用texttrack它支持多种类型的文件,也支持PDF。所以文本跟踪更好

下面是这些链接


我不能。。你能自己写吗?Abdul Rhaman只需打开命令提示符write cd并给出脚本文件夹的路径,然后只需写pip安装textrace并输入你的textrace libaray将开始安装你正在使用的python版本?研究我上面提供的这些链接,它们将在Hallah中解决你的问题。我没有找到我想要的,如果你知道怎么写剧本,你能写吗?
pip install Libraryname