使用Python使用Javascript进行网页抓取

使用Python使用Javascript进行网页抓取,javascript,python,web,screen-scraping,Javascript,Python,Web,Screen Scraping,我正在尝试使用Python刮取一个包含URL列表的网页。我可以使用Python和beautiful soup轻松地浏览第一个页面,但是如果url列表很长,它将使用以下JavaScript继续浏览第二个页面 href=“javascript:_doPostBack('WQResultGridView','Page$2') 我不知道如何进入第二页。我猜这个调用将被转换为http(顾名思义,post)请求 查看firebug的“net”选项卡,了解该请求的结构,并使用python运行相同的请求 另一种

我正在尝试使用Python刮取一个包含URL列表的网页。我可以使用Python和beautiful soup轻松地浏览第一个页面,但是如果url列表很长,它将使用以下JavaScript继续浏览第二个页面

href=“javascript:_doPostBack('WQResultGridView','Page$2')


我不知道如何进入第二页。

我猜这个调用将被转换为http(顾名思义,post)请求

查看firebug的“net”选项卡,了解该请求的结构,并使用python运行相同的请求


另一种更通用的处理方法是加载页面并使用类似

的工具运行它所持有的javascript。我不确定BeautifulSoup是否可以处理这个问题(至少不需要对javascript进行反向工程)。请检查以下软件包之一:
mechanize
scrapy
。您甚至可以尝试
selenium
比我更了解的人可以帮助您了解详细信息。第一页的url是什么?