用python抓取带有发布表单的站点-使用哪种工具

用python抓取带有发布表单的站点-使用哪种工具,python,selenium,web-crawler,Python,Selenium,Web Crawler,有一个网站有一个表单。我想自动执行一个过程,在表单中输入一些值并检查结果。我想扫描相当多的表单组合(这就是为什么我不想手动执行此操作)。不幸的是,由于大量使用cookie,我无法使用cURL实现自动化 我想也许我可以用真正的浏览器为我做一些自动化?我想到了phantomjs和selenium(到目前为止还没有使用selenium)。selenium是否运行真正的浏览器?这很好,因为真正的浏览器可以处理所有的cookie内容 简言之:我会有一堆python字典,用来填充网站表单。填写表单后,我想扫

有一个网站有一个表单。我想自动执行一个过程,在表单中输入一些值并检查结果。我想扫描相当多的表单组合(这就是为什么我不想手动执行此操作)。不幸的是,由于大量使用cookie,我无法使用cURL实现自动化

我想也许我可以用真正的浏览器为我做一些自动化?我想到了phantomjs和selenium(到目前为止还没有使用selenium)。selenium是否运行真正的浏览器?这很好,因为真正的浏览器可以处理所有的cookie内容


简言之:我会有一堆python字典,用来填充网站表单。填写表单后,我想扫描HTML以检索结果。之后,我将总结所有内容(这一步很简单)。硒适合我的需要吗?您能推荐更好的吗?

是的,selenium是一个浏览器模拟器,当您运行它时,它会打开一个实际的浏览器窗口

phantom js是用于selenium的无头web工具包,它将在后台运行浏览器,而不显示实际的浏览器窗口

如果您不能使用urllib、requests或mechanize,那么您最好使用selenium


对于HTML解析,我建议它非常容易使用,并且可以获得您需要的所有信息

Selenium上有一些工具可以让它更容易使用,例如,您可以描述您想要实现的目标,类似于人类对它的描述,Splinter会尝试适应您,处理AJAX、延迟和重试等。充分披露:我在PyCon AU做了一个关于Splinter的演讲,所以我可能有偏见:P()