用于检查网站是否有指向其他网站的URL的Python脚本

用于检查网站是否有指向其他网站的URL的Python脚本,python,Python,假设我有一个xls或csv文件(在某个云上),其中包含网站列表,其中包含指向我网站上某些内容的URL。我想写一个脚本,去给定的网站,检查链接是否仍然存在,如果它有'跟随'属性。哪种工具和库最适合它。我想用硒来做这个 要手动选择要检查的网站,请尝试: 导入urllib Url=urllib.request.urlopen(输入(“要检查的网站”(格式:http(s)://www.(WebPageDomain)。(WebPageUrlEnder)/(可选:子页)\n>>) 如果Url.read()包

假设我有一个xls或csv文件(在某个云上),其中包含网站列表,其中包含指向我网站上某些内容的URL。我想写一个脚本,去给定的网站,检查链接是否仍然存在,如果它有'跟随'属性。哪种工具和库最适合它。我想用硒来做这个

要手动选择要检查的网站,请尝试:

导入urllib
Url=urllib.request.urlopen(输入(“要检查的网站”(格式:http(s)://www.(WebPageDomain)。(WebPageUrlEnder)/(可选:子页)\n>>)
如果Url.read()包含(输入(“您的网站名称?\n>>”):
#做事
这可能有效,也可能无效。我没有时间检查。如果您对read()方法有疑问,请查看一些文档

是的,您可以使用selenium自动化python中的工作。
或者,您可以读取csv/xls文件并存储值 在python中使用pandas作为数据帧。
您可以在 网站,并存储网站是否工作的结果


最后将结果以csv/xls的形式存储。

如果不需要交互,那么“靓汤”也可以。
# sample code for storing csv/xls in dataframe
filepath = 'data.csv'
df = pd.read_csv(filepath) || pd.read_excel(filepath, index_col=0)
print(df)

# sample code for checking website exists
import requests
url = 'http://www.example.com'
request = requests.get(url)
if request.status_code == 200:
    print('Web site exists')
else:
    print('Web site does not exist')