如何使用python解析站点标题？_Python_Parsing_Web Scraping

如何使用python解析站点标题？

python parsing web-scraping

如何使用python解析站点标题？,python,parsing,web-scraping,Python,Parsing,Web Scraping,我是python新手，无法理解如何实现以下任务。有一个txt文件，其中的域（大约10000个域）以大写形式存储。必要： -将域地址转换为小写 -在域的开头添加字符串“http://”，以便将域插入到请求中 -进行循环，以便解析器从每个域（站点）收集标题 -将所有内容写入带有两个字段的文件表|站点url |站点标题| 事情就是这样：导入请求从bs4导入BeautifulSoup作为bs f=打开（r'file.txt'，'r+'） a=[] 对于f中的i： a、追加（i.lower（）.r

我是python新手，无法理解如何实现以下任务。有一个txt文件，其中的域（大约10000个域）以大写形式存储。必要：
-将域地址转换为小写
-在域的开头添加字符串“http://”，以便将域插入到请求中
-进行循环，以便解析器从每个域（站点）收集标题
-将所有内容写入带有两个字段的文件表|站点url |站点标题|

事情就是这样：

导入请求
从bs4导入BeautifulSoup作为bs
f=打开（r'file.txt'，'r+'）
a=[]
对于f中的i：
a、 追加（i.lower（）.replace（'\n'，''）
a[-1]=“http://”+a[-1]
f、 关闭（）
title_list=[]
对于中的url：
尝试：
r=请求。获取（url）
page=bs（r.content，'html.parser'）
title=page.find（'title'）
title\u list.append（url）
title\u list.append（title.text.replace（'\n'，''）
例外情况除外，如e：
打印（e）
打印（标题列表）

我不知道如何实现服务器错误检查

您可以执行类似的操作

import urllib2
from BeautifulSoup import BeautifulSoup

file = open('urllist.txt', 'r')
urlList = file.readlines()
file.close()

titles = []

for url in urlList:
    soup = BeautifulSoup(urllib2.urlopen('https://' + url.lower()))
    titles.append(soup.title.string)

注:

“urlist.txt”是包含URL的文件
标题将包含网站标题列表

希望这能有所帮助：）

我觉得这项任务对你来说已经不重要了，所以做点调查吧。1）读取一个txt文件。2）阅读它（可能逐行），并转换成小写3）在该字符串的开头添加

'http://'

，4）将该字符串输入到请求中以获取html 5）提取它接收到的html的标题；5）将其写入包含两列的表中。从能够做1开始