Python 网页垃圾链接与手动浏览不同_Python_Web Scraping

Python 网页垃圾链接与手动浏览不同

python web-scraping

Python 网页垃圾链接与手动浏览不同,python,web-scraping,Python,Web Scraping,我已经刮了840网址网站。。。当我重新编译URL以获取更多信息时，我的python刮板不会像手动单击链接那样提供相同的数据比如我访问这个网站的时候, 如果我点击列表中的第一个“详细信息”，它将进入一个包含更多信息的页面给出的信息是一个相对链接，显示“/Sales/SaleDetails？PropertyId=254119896” 我已经删除了“详细信息”相对链接，然后重新构建链接以匹配绝对地址。此地址变为然而，当我这样做并尝试刮取时，我会得到一组完全不同的数据，它会将我带到一个通用的

我已经刮了840网址网站。。。当我重新编译URL以获取更多信息时，我的python刮板不会像手动单击链接那样提供相同的数据

比如我访问这个网站的时候,

如果我点击列表中的第一个“详细信息”，它将进入一个包含更多信息的页面

给出的信息是一个相对链接，显示“/Sales/SaleDetails？PropertyId=254119896”

我已经删除了“详细信息”相对链接，然后重新构建链接以匹配绝对地址。此地址变为

然而，当我这样做并尝试刮取时，我会得到一组完全不同的数据，它会将我带到一个通用的登录页

起初我认为，我需要使用无头浏览器来解决这个问题，但现在我不确定

这是我的密码：

import time
from selenium import webdriver

baseurl='https://salesweb.civilview.com'
link='/Sales/SaleDetails?PropertyId=254119946'
url1=baseurl+link

driver = webdriver.PhantomJS() 
driver.get(url1)  
html = driver.page_source
time.sleep(10) 
driver.quit()

我找到了一个解决办法，如果你首先与网站互动，你可以访问其他URL。不幸的是，我不知道它为什么有效：

driver = webdriver.PhantomJS()
driver.get("https://salesweb.civilview.com/")
driver.find_element_by_link_text('Atlantic County, NJ').click()
driver.get("https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119946")
html = driver.page_source
print(html)