Python 为什么scraperwiki会从被刮取的html中省略行?

Python 为什么scraperwiki会从被刮取的html中省略行?,python,html,lxml,scraperwiki,Python,Html,Lxml,Scraperwiki,我在scraperwiki上有一个非常简单的python脚本: import scraperwiki import lxml.html html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php") print html 我还没有写任何东西来解析它。。。现在我只想要html 当我在编辑模式下运行它时,它工作得非常好 当计划的刮取运行或我手动运行它时,它会忽略几十行甚至数百行 这是一个非常小的网页,所以数

我在scraperwiki上有一个非常简单的python脚本:

import scraperwiki
import lxml.html

html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php")
print html
我还没有写任何东西来解析它。。。现在我只想要html

当我在编辑模式下运行它时,它工作得非常好

当计划的刮取运行或我手动运行它时,它会忽略几十行甚至数百行


这是一个非常小的网页,所以数据过载应该不是问题。有什么想法吗?

听起来数据好像在变量中。试着一次打印一行。

在编辑器中,单个打印语句被卷成一行显示。你可以点击更多。。。在编辑器的控制台上查看整个批次

当计划运行时,它的输出与任何控制台中的输出完全相同。因此,如果HTML中有回车符,您将获得大量的输出行

为了减少存储的输出量,我们截断了计划运行中的大型输出。这就是你看到的[53行,省略159000个字符]


计划运行中的stdout并不真正用于调试以外的任何用途。您需要保存到数据存储中,以便使用输出。

您确定这不是在scraperwiki上处理打印的人工制品吗?不确定。。。我在我的HTML输出中间得到了一条这样的线——每个括号中的实际数字变化:[ 53行,159000个字符省略]无法找到关于它有趣的PurriWiKi文档的任何东西!您是否以某种方式需要输出,或者您只是好奇ScraperWiki是如何工作的以及它何时截断它?谢谢。。。我不知道你不能只存储整个html。不知道你所说的存储是什么意思。。。计划运行中存储的标准输出仅用于调试。您可以在SQLite数据库中存储其他内容。。。