PythonTextract导入程序
我已经开始使用Python库PythonTextract导入程序,python,docx,text-extraction,python-docx,Python,Docx,Text Extraction,Python Docx,我已经开始使用Python库textract解析PowerPoint(.pptx)、Word文档(.docx)和文本文件(*.txt)中的文本。我写了一个简单的脚本来测试它 # Python textract test script import textract textract.process("H:\My Documents\Test.docx") 当我在命令行或空闲状态下运行它时,我会得到一个回溯,最后几行是: 文件:“C:…\textract\parsers\docx\u parse
textract
解析PowerPoint(.pptx)、Word文档(.docx)和文本文件(*.txt)中的文本。我写了一个简单的脚本来测试它
# Python textract test script
import textract
textract.process("H:\My Documents\Test.docx")
当我在命令行或空闲状态下运行它时,我会得到一个回溯,最后几行是:
文件:“C:…\textract\parsers\docx\u parser.py”,中的第1行
导入docx2txt
ImportError:没有名为docx2txt的模块
我使用的是从下载的1.5.0版。我不知道为什么它不包含任何依赖项。我是否必须安装
docx2txt
及其后续依赖项?为什么textract
软件包不包含我需要的所有内容?我建议使用pip install xxx
安装模块。它将安装在python通常查找的路径中。它还应该处理依赖关系
若您进行了手动安装,或者只是将其解压缩到“晚餐”文件夹中,那个么请正确设置路径,如此处所述或
如果您认为设置正确,请发布其值、pwd等。
textract
不会自动为其支持的所有文件类型安装依赖项。你有选择地安装你感兴趣的
虽然这并不像人们想象的那么优雅,但我认为这是合适的设计选择。Python不具备按需安装依赖项的能力,因此唯一的替代方法是textract
安装所有十几个或更多可能的依赖项,这会使Python环境膨胀
因此,在这种情况下,正如Kashyap提到的,适当的行动是:
pip install python-docx
和您可能需要的任何其他文件类型依赖项类似。这对我很有效
打开终端,然后按如下方式键入:
python -m venv env
source ./env/bin/activate
sudo apt update
sudo apt install python-pip && pip install --upgrade pip
sudo apt install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig
pip install textract
如果遇到任何错误,请在下面尝试
pip install https://pypi.python.org/packages/ce/c7/ab6cd0d00ddf8dc3b537cfb922f3f049f8018f38c88d71fd164f3acb8416/SpeechRecognition-3.6.3-py2.py3-none-any.whl
sudo apt install libpulse-dev
pip install textract
你试过下载docx2txt吗?