Javascript 使用python抓取此网站

Javascript 使用python抓取此网站,javascript,python,Javascript,Python,我不熟悉网络刮削,并尝试刮削以下网站: 我正在尝试使用python进行刮取。我尝试了请求、PhantomJS、selenium chromedriver来获取html。但是我得到的html与我在使用google chrome检查时看到的html不匹配 我对刮片非常陌生,对html知之甚少,对JavaScript几乎一无所知。我的主要难题是获取在谷歌浏览器中看到的html,以便开始抓取 提前谢谢 您应该首先查找DOM解析器。这些帮助您将DOM对象(如,,等)与python对象一样对待 完成此操作

我不熟悉网络刮削,并尝试刮削以下网站:

我正在尝试使用python进行刮取。我尝试了请求、PhantomJS、selenium chromedriver来获取html。但是我得到的html与我在使用google chrome检查时看到的html不匹配

我对刮片非常陌生,对html知之甚少,对JavaScript几乎一无所知。我的主要难题是获取在谷歌浏览器中看到的html,以便开始抓取


提前谢谢

您应该首先查找DOM解析器。这些帮助您将DOM对象(如
等)与python对象一样对待

完成此操作后,您应该编写一个获取整个html的程序,然后使用DOM解析器从python获取所需的信息。如果你需要抓取不同的页面,比如很多链接,你应该将它们存储在一个数组中,获取它们的HTMLs并重复这个过程


通过这种方式,您可以获得任何站点的大部分信息。您应该做的是对如何获取它进行反向工程。

您可以使用它来对xml文档进行jquery查询。

urllib2可以很好地实现这一目的。它也很容易使用

import urllib2
URL = 'https://www.epri.com/#/careers/list'
response = urllib2.urlopen(URL)
print "Output: \n\n\n\n", response.read()

要解析获得的HTML,可以使用BeautifulSoup。

尝试以下方法:阅读。这将给你一个关于网页抓取(使用Python)的想法。不是所有的网站都有静态html内容,这可能是你想要的。你的网站看起来有些部分是生成的,有些可能是css。试试这个问题,为什么不使用漂亮的Soap呢?页面似乎在请求
https://services.epri.com/api/page-data/reqs
这是填写未清头寸表的JSON。这不是我想要的方式。生成的html不是我在google chrome中看到的html。html是动态生成的。