使用Python使用Javascript进行网页抓取_Javascript_Python_Web_Screen Scraping

使用Python使用Javascript进行网页抓取

javascript python web

使用Python使用Javascript进行网页抓取,javascript,python,web,screen-scraping,Javascript,Python,Web,Screen Scraping,我正在尝试使用Python刮取一个包含URL列表的网页。我可以使用Python和beautiful soup轻松地浏览第一个页面，但是如果url列表很长，它将使用以下JavaScript继续浏览第二个页面 href=“javascript:_doPostBack（'WQResultGridView'，'Page$2'）我不知道如何进入第二页。我猜这个调用将被转换为http（顾名思义，post）请求查看firebug的“net”选项卡，了解该请求的结构，并使用python运行相同的请求另一种

我正在尝试使用Python刮取一个包含URL列表的网页。我可以使用Python和beautiful soup轻松地浏览第一个页面，但是如果url列表很长，它将使用以下JavaScript继续浏览第二个页面

href=“javascript:_doPostBack（'WQResultGridView'，'Page$2'）

我不知道如何进入第二页。

我猜这个调用将被转换为http（顾名思义，post）请求

查看firebug的“net”选项卡，了解该请求的结构，并使用python运行相同的请求

另一种更通用的处理方法是加载页面并使用类似

的工具运行它所持有的javascript。我不确定BeautifulSoup是否可以处理这个问题（至少不需要对javascript进行反向工程）。请检查以下软件包之一：

mechanize

，

scrapy

。您甚至可以尝试

selenium

比我更了解的人可以帮助您了解详细信息。第一页的url是什么？