Web抓取具有动态javascript内容的网站

Web抓取具有动态javascript内容的网站,javascript,python,web-scraping,beautifulsoup,html-parsing,Javascript,Python,Web Scraping,Beautifulsoup,Html Parsing,因此,我正在使用python和beautifulsoup4(我不喜欢)来创建一个网站。问题是,当我使用urlib获取页面的html时,它不是整个页面,因为其中一些页面是通过javascript生成的。有什么办法可以解决这个问题吗?基本上有两个主要的选择: 使用浏览器开发工具,查看ajax请求将加载哪些页面并在脚本中模拟它们,您可能需要使用模块将响应json字符串加载到python数据结构中 使用这样的工具打开一个真正的浏览器。浏览器也可以是“无头”,请参见 第一个选项更难实现,一般来说,它更

因此,我正在使用python和beautifulsoup4(我不喜欢)来创建一个网站。问题是,当我使用urlib获取页面的html时,它不是整个页面,因为其中一些页面是通过javascript生成的。有什么办法可以解决这个问题吗?

基本上有两个主要的选择:

  • 使用浏览器开发工具,查看ajax请求将加载哪些页面并在脚本中模拟它们,您可能需要使用模块将响应json字符串加载到python数据结构中
  • 使用这样的工具打开一个真正的浏览器。浏览器也可以是“无头”,请参见
第一个选项更难实现,一般来说,它更脆弱,但它不需要真正的浏览器,可以更快

第二种选择更好,因为你可以得到其他真实用户所得到的,而不必担心页面是如何加载的。Selenium在页面上非常强大-您可能根本不需要
BeautifulSoup
。但是,无论如何,这个选项比第一个慢

希望对您有所帮助。

可能的副本