如何使用python解析站点标题?

如何使用python解析站点标题?,python,parsing,web-scraping,Python,Parsing,Web Scraping,我是python新手,无法理解如何实现以下任务。 有一个txt文件,其中的域(大约10000个域)以大写形式存储。必要: -将域地址转换为小写 -在域的开头添加字符串“http://”,以便将域插入到请求中 -进行循环,以便解析器从每个域(站点)收集标题 -将所有内容写入带有两个字段的文件表|站点url |站点标题| 事情就是这样: 导入请求 从bs4导入BeautifulSoup作为bs f=打开(r'file.txt','r+') a=[] 对于f中的i: a、 追加(i.lower().r

我是python新手,无法理解如何实现以下任务。 有一个txt文件,其中的域(大约10000个域)以大写形式存储。必要:
-将域地址转换为小写
-在域的开头添加字符串“http://”,以便将域插入到请求中
-进行循环,以便解析器从每个域(站点)收集标题
-将所有内容写入带有两个字段的文件表|站点url |站点标题|

事情就是这样:

导入请求
从bs4导入BeautifulSoup作为bs
f=打开(r'file.txt','r+')
a=[]
对于f中的i:
a、 追加(i.lower().replace('\n','')
a[-1]=“http://”+a[-1]
f、 关闭()
title_list=[]
对于中的url:
尝试:
r=请求。获取(url)
page=bs(r.content,'html.parser')
title=page.find('title')
title\u list.append(url)
title\u list.append(title.text.replace('\n','')
例外情况除外,如e:
打印(e)
打印(标题列表)

我不知道如何实现服务器错误检查

您可以执行类似的操作

import urllib2
from BeautifulSoup import BeautifulSoup

file = open('urllist.txt', 'r')
urlList = file.readlines()
file.close()

titles = []

for url in urlList:
    soup = BeautifulSoup(urllib2.urlopen('https://' + url.lower()))
    titles.append(soup.title.string)
注:
  • “urlist.txt”是包含URL的文件
  • 标题将包含网站标题列表

希望这能有所帮助:)

我觉得这项任务对你来说已经不重要了,所以做点调查吧。1) 读取一个txt文件。2) 阅读它(可能逐行),并转换成小写3)在该字符串的开头添加
'http://'
,4)将该字符串输入到请求中以获取html 5)提取它接收到的html的标题;5) 将其写入包含两列的表中。从能够做1开始