Python 网页垃圾链接与手动浏览不同
我已经刮了840网址网站。。。 当我重新编译URL以获取更多信息时,我的python刮板不会像手动单击链接那样提供相同的数据 比如我访问这个网站的时候, 如果我点击列表中的第一个“详细信息”,它将进入一个包含更多信息的页面 给出的信息是一个相对链接,显示“/Sales/SaleDetails?PropertyId=254119896” 我已经删除了“详细信息”相对链接,然后重新构建链接以匹配绝对地址。 此地址变为 然而,当我这样做并尝试刮取时,我会得到一组完全不同的数据,它会将我带到一个通用的登录页 起初我认为,我需要使用无头浏览器来解决这个问题,但现在我不确定 这是我的密码:Python 网页垃圾链接与手动浏览不同,python,web-scraping,Python,Web Scraping,我已经刮了840网址网站。。。 当我重新编译URL以获取更多信息时,我的python刮板不会像手动单击链接那样提供相同的数据 比如我访问这个网站的时候, 如果我点击列表中的第一个“详细信息”,它将进入一个包含更多信息的页面 给出的信息是一个相对链接,显示“/Sales/SaleDetails?PropertyId=254119896” 我已经删除了“详细信息”相对链接,然后重新构建链接以匹配绝对地址。 此地址变为 然而,当我这样做并尝试刮取时,我会得到一组完全不同的数据,它会将我带到一个通用的
import time
from selenium import webdriver
baseurl='https://salesweb.civilview.com'
link='/Sales/SaleDetails?PropertyId=254119946'
url1=baseurl+link
driver = webdriver.PhantomJS()
driver.get(url1)
html = driver.page_source
time.sleep(10)
driver.quit()
我找到了一个解决办法,如果你首先与网站互动,你可以访问其他URL。不幸的是,我不知道它为什么有效:
driver = webdriver.PhantomJS()
driver.get("https://salesweb.civilview.com/")
driver.find_element_by_link_text('Atlantic County, NJ').click()
driver.get("https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119946")
html = driver.page_source
print(html)