Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/364.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 目前正在使用BeatifulSoup检查网页上的链接。没有获取链接的任何状态代码? 设置: site=https://www.benefits.gov' headers={'User-Agent':'Mozilla/5.0(Macintosh;英特尔Mac_Python_Beautifulsoup_Web Crawler - Fatal编程技术网

Python 目前正在使用BeatifulSoup检查网页上的链接。没有获取链接的任何状态代码? 设置: site=https://www.benefits.gov' headers={'User-Agent':'Mozilla/5.0(Macintosh;英特尔Mac

Python 目前正在使用BeatifulSoup检查网页上的链接。没有获取链接的任何状态代码? 设置: site=https://www.benefits.gov' headers={'User-Agent':'Mozilla/5.0(Macintosh;英特尔Mac,python,beautifulsoup,web-crawler,Python,Beautifulsoup,Web Crawler,目前正在使用BeatifulSoup检查网页上的链接。没有获取链接的任何状态代码? 设置: site=https://www.benefits.gov' headers={'User-Agent':'Mozilla/5.0(Macintosh;英特尔Mac OS X 10_1 1_5)AppleWebKit/537.36(KHTML,如Gecko)Chrome/50.0.2661.102 Safari/537.36'} base=urlparse(site).netloc 打印(‘测试’) 访问

目前正在使用BeatifulSoup检查网页上的链接。没有获取链接的任何状态代码? 设置:
site=https://www.benefits.gov'
headers={'User-Agent':'Mozilla/5.0(Macintosh;英特尔Mac OS X
10_1 1_5)AppleWebKit/537.36(KHTML,如Gecko)Chrome/50.0.2661.102
Safari/537.36'}
base=urlparse(site).netloc
打印(‘测试’)
访问地址=[站点]
大纲链接=[]
访问={}
外部访问={}
参观地点:
访问时:
l=to_visit.pop()
印刷品(l)
url=urljoin(站点,l)
打印('test1')
尝试:
r=requests.get(url,headers=headers)
已访问[l]=r.status\U代码
打印(“测试5”)
除:
已访问[l]=无
打印('test2')
如果r.status_code==200:
打印(“测试6”)
soup=BeautifulSoup(r.content,'html5lib')
打印(“test7”)
links=[l['href']表示汤中的l。查找所有('a',href=True)]
对于链接中的链接:
parsed_link=urlparse(link)
loc=已解析的链接.netloc
路径=已解析的链接路径
joined\u url=urljoin(站点,链接)
打印('test3')
如果loc='':
打印(“测试9”)
如果加入的url不在访问中,并且加入的url不在访问中。键()
to\u visit.append(加入的\u url)
elif loc==基准:
如果链接不在访问中且链接不在访问中。键():
to_visit.append(链接)
其他:
如果链接不在大纲链接中且链接不在已访问的.keys()中:
outlinks.append(链接)
打印('test4')
检查外部链接状态:
大纲视图时:
l=outlinks.pop()
打印(“测试8”)
尝试:
r=请求。获取(l)
外部访问[l]=r.状态代码
除:
外部访问[l]=无

除粗体文本外,所有这些都是代码。不知道为什么格式化看起来像这样。有东西触发了异常,并将状态代码值设置为“无”。我建议这样读异常:
异常除外,即e:print(e)
。该链接可能已经是绝对链接,因此您正在创建如下
https://web.site/https://absolutelink.site/test.html
而且该url不可访问,因此引发了一个异常。嗯,让我尝试修复一些问题