Javascript 使用python抓取此网站_Javascript_Python

Javascript 使用python抓取此网站

javascript python

Javascript 使用python抓取此网站,javascript,python,Javascript,Python,我不熟悉网络刮削，并尝试刮削以下网站：我正在尝试使用python进行刮取。我尝试了请求、PhantomJS、selenium chromedriver来获取html。但是我得到的html与我在使用google chrome检查时看到的html不匹配我对刮片非常陌生，对html知之甚少，对JavaScript几乎一无所知。我的主要难题是获取在谷歌浏览器中看到的html，以便开始抓取提前谢谢您应该首先查找DOM解析器。这些帮助您将DOM对象（如，，等）与python对象一样对待完成此操作

我不熟悉网络刮削，并尝试刮削以下网站：

我正在尝试使用python进行刮取。我尝试了请求、PhantomJS、selenium chromedriver来获取html。但是我得到的html与我在使用google chrome检查时看到的html不匹配

我对刮片非常陌生，对html知之甚少，对JavaScript几乎一无所知。我的主要难题是获取在谷歌浏览器中看到的html，以便开始抓取

提前谢谢

您应该首先查找DOM解析器。这些帮助您将DOM对象（如

，

等）与python对象一样对待

完成此操作后，您应该编写一个获取整个html的程序，然后使用DOM解析器从python获取所需的信息。如果你需要抓取不同的页面，比如很多链接，你应该将它们存储在一个数组中，获取它们的HTMLs并重复这个过程

通过这种方式，您可以获得任何站点的大部分信息。您应该做的是对如何获取它进行反向工程。

您可以使用它来对xml文档进行jquery查询。

urllib2可以很好地实现这一目的。它也很容易使用

import urllib2
URL = 'https://www.epri.com/#/careers/list'
response = urllib2.urlopen(URL)
print "Output: \n\n\n\n", response.read()

要解析获得的HTML，可以使用BeautifulSoup。

尝试以下方法：阅读。这将给你一个关于网页抓取（使用Python）的想法。不是所有的网站都有静态html内容，这可能是你想要的。你的网站看起来有些部分是生成的，有些可能是css。试试这个问题，为什么不使用漂亮的Soap呢？页面似乎在请求

https://services.epri.com/api/page-data/reqs

这是填写未清头寸表的JSON。这不是我想要的方式。生成的html不是我在google chrome中看到的html。html是动态生成的。