Web抓取具有动态javascript内容的网站_Javascript_Python_Web Scraping_Beautifulsoup_Html Parsing

Web抓取具有动态javascript内容的网站

javascript python web-scraping

Web抓取具有动态javascript内容的网站,javascript,python,web-scraping,beautifulsoup,html-parsing,Javascript,Python,Web Scraping,Beautifulsoup,Html Parsing,因此，我正在使用python和beautifulsoup4（我不喜欢）来创建一个网站。问题是，当我使用urlib获取页面的html时，它不是整个页面，因为其中一些页面是通过javascript生成的。有什么办法可以解决这个问题吗？基本上有两个主要的选择：使用浏览器开发工具，查看ajax请求将加载哪些页面并在脚本中模拟它们，您可能需要使用模块将响应json字符串加载到python数据结构中使用这样的工具打开一个真正的浏览器。浏览器也可以是“无头”，请参见第一个选项更难实现，一般来说，它更

因此，我正在使用python和beautifulsoup4（我不喜欢）来创建一个网站。问题是，当我使用urlib获取页面的html时，它不是整个页面，因为其中一些页面是通过javascript生成的。有什么办法可以解决这个问题吗？

基本上有两个主要的选择：

使用浏览器开发工具，查看ajax请求将加载哪些页面并在脚本中模拟它们，您可能需要使用模块将响应json字符串加载到python数据结构中
使用这样的工具打开一个真正的浏览器。浏览器也可以是“无头”，请参见

第一个选项更难实现，一般来说，它更脆弱，但它不需要真正的浏览器，可以更快

第二种选择更好，因为你可以得到其他真实用户所得到的，而不必担心页面是如何加载的。Selenium在页面上非常强大-您可能根本不需要

BeautifulSoup

。但是，无论如何，这个选项比第一个慢

希望对您有所帮助。

可能的副本