Web抓取具有动态javascript内容的网站
因此,我正在使用python和beautifulsoup4(我不喜欢)来创建一个网站。问题是,当我使用urlib获取页面的html时,它不是整个页面,因为其中一些页面是通过javascript生成的。有什么办法可以解决这个问题吗?基本上有两个主要的选择:Web抓取具有动态javascript内容的网站,javascript,python,web-scraping,beautifulsoup,html-parsing,Javascript,Python,Web Scraping,Beautifulsoup,Html Parsing,因此,我正在使用python和beautifulsoup4(我不喜欢)来创建一个网站。问题是,当我使用urlib获取页面的html时,它不是整个页面,因为其中一些页面是通过javascript生成的。有什么办法可以解决这个问题吗?基本上有两个主要的选择: 使用浏览器开发工具,查看ajax请求将加载哪些页面并在脚本中模拟它们,您可能需要使用模块将响应json字符串加载到python数据结构中 使用这样的工具打开一个真正的浏览器。浏览器也可以是“无头”,请参见 第一个选项更难实现,一般来说,它更
- 使用浏览器开发工具,查看ajax请求将加载哪些页面并在脚本中模拟它们,您可能需要使用模块将响应json字符串加载到python数据结构中
- 使用这样的工具打开一个真正的浏览器。浏览器也可以是“无头”,请参见
BeautifulSoup
。但是,无论如何,这个选项比第一个慢
希望对您有所帮助。可能的副本