安装Scraperwiki for Python会生成一个错误pdftohtml not found_Python_Poppler_Scraperwiki_Pdf To Html

安装Scraperwiki for Python会生成一个错误pdftohtml not found

python

安装Scraperwiki for Python会生成一个错误pdftohtml not found,python,poppler,scraperwiki,pdf-to-html,Python,Poppler,Scraperwiki,Pdf To Html,我一直在尝试为Python安装Scraperwiki模块。但是，它会生成错误： “”用户警告：本地Scraperlibs需要pdftohtml，但在路径中找不到pdftohtml。您可能需要安装它” 我查看了poppler，因为他们有pdftohtml文件，但我不知道它是如何工作的-是否有需要安装的python库或.exe文件。以及如何安装它。在Windows上运行非常感谢如果您不打算使用scraperwiki.pdftoxml（），则此警告不适用。但是，它不会阻止您安装scraperwiki

我一直在尝试为Python安装Scraperwiki模块。但是，它会生成错误：

“”用户警告：本地Scraperlibs需要pdftohtml，但在路径中找不到pdftohtml。您可能需要安装它”

我查看了poppler，因为他们有pdftohtml文件，但我不知道它是如何工作的-是否有需要安装的python库或.exe文件。以及如何安装它。在Windows上运行

非常感谢

如果您不打算使用

scraperwiki.pdftoxml（）

，则此警告不适用。但是，它不会阻止您安装

scraperwiki

软件包

此外，该函数在Windows上根本不起作用；它使用的是行为正常的

NamedTemporaryFiles

如果您确实想使用该功能，在Windows上获取最新版本的

pdftohtml

的最简单方法是下载。（Sourceforge上的版本较旧。）

在任何地方安装它；您只需要其中的一些文件。从安装它的地方，从包含calibre.exe的文件夹，您需要

pdftohtml.exe

到您的工作文件夹，以及从calibre安装中的

DLLs

文件夹，

freetype.dll

，

jpeg.dll

，

libpng12.dll

，

zlib1.dll

您还需要基于

scraperwiki.pdftoxml（）

的代码，例如：

def pdftoxml（pdfdata，选项）：
“”“将pdf文件转换为xml文件”“”
#许多黑客Windows修复了c.f.原创
以open（'input.pdf'，'wb'）作为f：
f、 写入（pdfdata）
cmd='pdftohtml-xml-nodrm-zoom 1.5-enc UTF-8-noframes'
如果选择：
cmd+=选项
cmd+=“input.pdf output.xml”
cmd=cmd+“>NUL 2>&1”
操作系统（cmd）
以open（'output.xml'，'r'）作为f：
返回f.read（）

（我最近试图让Windows中的用户使用此代码；我将不断更新包含此代码的文档。）