用于检查网站是否有指向其他网站的URL的Python脚本_Python

用于检查网站是否有指向其他网站的URL的Python脚本

python

用于检查网站是否有指向其他网站的URL的Python脚本,python,Python,假设我有一个xls或csv文件（在某个云上），其中包含网站列表，其中包含指向我网站上某些内容的URL。我想写一个脚本，去给定的网站，检查链接是否仍然存在，如果它有'跟随'属性。哪种工具和库最适合它。我想用硒来做这个要手动选择要检查的网站，请尝试：导入urllib Url=urllib.request.urlopen（输入（“要检查的网站”（格式：http（s）：//www.（WebPageDomain）。（WebPageUrlEnder）/（可选：子页）\n>>）如果Url.read（）包

假设我有一个xls或csv文件（在某个云上），其中包含网站列表，其中包含指向我网站上某些内容的URL。我想写一个脚本，去给定的网站，检查链接是否仍然存在，如果它有'跟随'属性。哪种工具和库最适合它。我想用硒来做这个

要手动选择要检查的网站，请尝试：

导入urllib
Url=urllib.request.urlopen（输入（“要检查的网站”（格式：http（s）：//www.（WebPageDomain）。（WebPageUrlEnder）/（可选：子页）\n>>）
如果Url.read（）包含（输入（“您的网站名称？\n>>”）：
#做事

这可能有效，也可能无效。我没有时间检查。如果您对read（）方法有疑问，请查看一些文档

是的，您可以使用selenium自动化python中的工作。
或者，您可以读取csv/xls文件并存储值在python中使用pandas作为数据帧。
您可以在网站，并存储网站是否工作的结果

最后将结果以csv/xls的形式存储。

如果不需要交互，那么“靓汤”也可以。

# sample code for storing csv/xls in dataframe
filepath = 'data.csv'
df = pd.read_csv(filepath) || pd.read_excel(filepath, index_col=0)
print(df)

# sample code for checking website exists
import requests
url = 'http://www.example.com'
request = requests.get(url)
if request.status_code == 200:
    print('Web site exists')
else:
    print('Web site does not exist')