Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/332.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
PythonTextract导入程序_Python_Docx_Text Extraction_Python Docx - Fatal编程技术网

PythonTextract导入程序

PythonTextract导入程序,python,docx,text-extraction,python-docx,Python,Docx,Text Extraction,Python Docx,我已经开始使用Python库textract解析PowerPoint(.pptx)、Word文档(.docx)和文本文件(*.txt)中的文本。我写了一个简单的脚本来测试它 # Python textract test script import textract textract.process("H:\My Documents\Test.docx") 当我在命令行或空闲状态下运行它时,我会得到一个回溯,最后几行是: 文件:“C:…\textract\parsers\docx\u parse

我已经开始使用Python库
textract
解析PowerPoint(.pptx)、Word文档(.docx)和文本文件(*.txt)中的文本。我写了一个简单的脚本来测试它

# Python textract test script
import textract
textract.process("H:\My Documents\Test.docx")
当我在命令行或空闲状态下运行它时,我会得到一个回溯,最后几行是:

文件:“C:…\textract\parsers\docx\u parser.py”,中的第1行 导入docx2txt ImportError:没有名为docx2txt的模块


我使用的是从下载的1.5.0版。我不知道为什么它不包含任何依赖项。我是否必须安装
docx2txt
及其后续依赖项?为什么
textract
软件包不包含我需要的所有内容?

我建议使用
pip install xxx
安装模块。它将安装在python通常查找的路径中。它还应该处理依赖关系

若您进行了手动安装,或者只是将其解压缩到“晚餐”文件夹中,那个么请正确设置路径,如此处所述或


如果您认为设置正确,请发布其值、pwd等。

textract
不会自动为其支持的所有文件类型安装依赖项。你有选择地安装你感兴趣的

虽然这并不像人们想象的那么优雅,但我认为这是合适的设计选择。Python不具备按需安装依赖项的能力,因此唯一的替代方法是
textract
安装所有十几个或更多可能的依赖项,这会使Python环境膨胀

因此,在这种情况下,正如Kashyap提到的,适当的行动是:

pip install python-docx
和您可能需要的任何其他文件类型依赖项类似。

这对我很有效

打开终端,然后按如下方式键入:

python -m venv env 
source ./env/bin/activate
sudo apt update
sudo apt install python-pip && pip install --upgrade pip
sudo apt install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig
pip install textract
如果遇到任何错误,请在下面尝试

pip install https://pypi.python.org/packages/ce/c7/ab6cd0d00ddf8dc3b537cfb922f3f049f8018f38c88d71fd164f3acb8416/SpeechRecognition-3.6.3-py2.py3-none-any.whl
sudo apt install libpulse-dev
pip install textract

你试过下载docx2txt吗?