安装Scraperwiki for Python会生成一个错误pdftohtml not found

安装Scraperwiki for Python会生成一个错误pdftohtml not found,python,poppler,scraperwiki,pdf-to-html,Python,Poppler,Scraperwiki,Pdf To Html,我一直在尝试为Python安装Scraperwiki模块。但是,它会生成错误: “”用户警告:本地Scraperlibs需要pdftohtml,但在路径中找不到pdftohtml。您可能需要安装它” 我查看了poppler,因为他们有pdftohtml文件,但我不知道它是如何工作的-是否有需要安装的python库或.exe文件。以及如何安装它。在Windows上运行 非常感谢如果您不打算使用scraperwiki.pdftoxml(),则此警告不适用。但是,它不会阻止您安装scraperwiki

我一直在尝试为Python安装Scraperwiki模块。但是,它会生成错误:

“”用户警告:本地Scraperlibs需要pdftohtml,但在路径中找不到pdftohtml。您可能需要安装它”

我查看了poppler,因为他们有pdftohtml文件,但我不知道它是如何工作的-是否有需要安装的python库或.exe文件。以及如何安装它。在Windows上运行


非常感谢

如果您不打算使用
scraperwiki.pdftoxml()
,则此警告不适用。但是,它不会阻止您安装
scraperwiki
软件包

此外,该函数在Windows上根本不起作用;它使用的是行为正常的
NamedTemporaryFiles

如果您确实想使用该功能,在Windows上获取最新版本的
pdftohtml
的最简单方法是下载。(Sourceforge上的版本较旧。)

在任何地方安装它;您只需要其中的一些文件。从安装它的地方,从包含calibre.exe的文件夹,您需要
pdftohtml.exe
到您的工作文件夹,以及从calibre安装中的
DLLs
文件夹,
freetype.dll
jpeg.dll
libpng12.dll
zlib1.dll

您还需要基于
scraperwiki.pdftoxml()
的代码,例如:

def pdftoxml(pdfdata,选项):
“”“将pdf文件转换为xml文件”“”
#许多黑客Windows修复了c.f.原创
以open('input.pdf','wb')作为f:
f、 写入(pdfdata)
cmd='pdftohtml-xml-nodrm-zoom 1.5-enc UTF-8-noframes'
如果选择:
cmd+=选项
cmd+=“input.pdf output.xml”
cmd=cmd+“>NUL 2>&1”
操作系统(cmd)
以open('output.xml','r')作为f:
返回f.read()
(我最近试图让Windows中的用户使用此代码;我将不断更新包含此代码的文档。)