Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/328.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 网页垃圾链接与手动浏览不同_Python_Web Scraping - Fatal编程技术网

Python 网页垃圾链接与手动浏览不同

Python 网页垃圾链接与手动浏览不同,python,web-scraping,Python,Web Scraping,我已经刮了840网址网站。。。 当我重新编译URL以获取更多信息时,我的python刮板不会像手动单击链接那样提供相同的数据 比如我访问这个网站的时候, 如果我点击列表中的第一个“详细信息”,它将进入一个包含更多信息的页面 给出的信息是一个相对链接,显示“/Sales/SaleDetails?PropertyId=254119896” 我已经删除了“详细信息”相对链接,然后重新构建链接以匹配绝对地址。 此地址变为 然而,当我这样做并尝试刮取时,我会得到一组完全不同的数据,它会将我带到一个通用的

我已经刮了840网址网站。。。 当我重新编译URL以获取更多信息时,我的python刮板不会像手动单击链接那样提供相同的数据

比如我访问这个网站的时候,

如果我点击列表中的第一个“详细信息”,它将进入一个包含更多信息的页面

给出的信息是一个相对链接,显示“/Sales/SaleDetails?PropertyId=254119896”

我已经删除了“详细信息”相对链接,然后重新构建链接以匹配绝对地址。 此地址变为

然而,当我这样做并尝试刮取时,我会得到一组完全不同的数据,它会将我带到一个通用的登录页

起初我认为,我需要使用无头浏览器来解决这个问题,但现在我不确定

这是我的密码:

import time
from selenium import webdriver

baseurl='https://salesweb.civilview.com'
link='/Sales/SaleDetails?PropertyId=254119946'
url1=baseurl+link

driver = webdriver.PhantomJS() 
driver.get(url1)  
html = driver.page_source
time.sleep(10) 
driver.quit()

我找到了一个解决办法,如果你首先与网站互动,你可以访问其他URL。不幸的是,我不知道它为什么有效:

driver = webdriver.PhantomJS()
driver.get("https://salesweb.civilview.com/")
driver.find_element_by_link_text('Atlantic County, NJ').click()
driver.get("https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119946")
html = driver.page_source
print(html)