Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/312.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/vba/14.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python处理HTML_Python_Html_Web Scraping_Beautifulsoup - Fatal编程技术网

Python处理HTML

Python处理HTML,python,html,web-scraping,beautifulsoup,Python,Html,Web Scraping,Beautifulsoup,python初学者在这里受到折磨,需要一些帮助:-( 这里我已经切割了我需要处理的主体,其中一个输出如下所示: <div class="article"><h5>1. <a href="https://www.theguardian.com/uk-news/2020/jan/01/lets-resolve-to-reconnect-says-welby-in-new-year-message" target="_bl

python初学者在这里受到折磨,需要一些帮助:-(

这里我已经切割了我需要处理的主体,其中一个输出如下所示:

<div class="article"><h5>1. <a href="https://www.theguardian.com/uk-news/2020/jan/01/lets-resolve-to-reconnect-says-welby-in-new-year-message" target="_blank">Let's resolve to reconnect, says Welby in new year message</a></h5>
<p class="metadata">Wed 1 Jan 2020 00:01 GMT</p>
<p class="metadata">Category: <span>UK-News</span></p>
<p class="snippet">The archbishop of Canterbury will urge people to make personal connections with others in 2020 to create a new unity in a divided society. In his new …</p></div>
1。

2020年1月1日星期三00:01 GMT

类别:英国新闻

坎特伯雷大主教将敦促人们在2020年与他人建立个人关系,在一个分裂的社会中建立新的团结。在他的新的

这里我的问题是如何获得:
(1) “标题”介于,标记
(2) 位于

后面的“Category”(这里有两个

s,不需要一个带时间的)
(3) “Snippet”位于


Thx的帮助提前,我觉得如果我知道如何处理这个例子,我可以处理很多

from urllib.request import urlopen
from bs4 import BeautifulSoup
from pprint import pprint as pp


def main(url):
    r = urlopen(url).read()
    soup = BeautifulSoup(r, 'lxml')
    goal = [(x.a.text, x.select("p")[1].text.split(' ', 1)[1], x.select_one('p.snippet').text)
            for x in soup.select('.article')]
    pp(goal)


main('http://mlg.ucd.ie/modules/COMP41680/assignment2/month-jan-001.html')
输出:

[(“Welby在新年致辞中说,让我们决定重新连接”,
"英国新闻",,
“坎特伯雷大主教将敦促人们建立个人关系”
“与其他人在2020年在一个分裂的社会中建立新的团结。在他的新的”
'…'),
(“老实说,你不会在假期里读所有的书,是吗?”
“你呢?”,
“书”,
“每年,大约在这个时候,我的Instagram提要上都会出现
“书。它们有时堆在5到10英寸高的地方”
"圣…"),,
(“玛丽亚·凯莉的推特账户在除夕夜被黑客入侵”,
"音乐",,
“玛丽亚·凯莉的推特账户似乎在周二晚些时候遭到黑客攻击”
“下午,与歌唱家分享了许多种族主义的诽谤和评论”
'21.4 …'),
(《欢乐审计:2020年如何享受更多乐趣》,
"生活与风格",,
“我最后一次感到高兴是在一个许多人都能看到的活动上”
“地狱之夜:一个酒醉的泰勒·斯威夫特俱乐部之夜,在午夜的早些时候”
'…'),
(《保罗·莱伊评论失去普罗维登斯——奥利弗·克伦威尔的兴衰》
“保护国”,
“书”,
“对英国国家元首的唯一公开处决发生在371年前”
“1649年1月30日,在白厅的宴会厅外,那是一座皇家教堂”
'…'),
(“2019年英国零碳电力超过化石燃料”,
“生意”,
总结:零碳能源成为英国年最大的电力来源
2019年,提供全国近一半的电力和
“第一次……”,
(《最后的冲刺:民主党候选人会让选民兴奋吗?》,
"美国新闻",,
“民主党人压倒性地同意,他们在2020年的首要任务是撤军”
唐纳德·特朗普卸任。但在众多竞选总统的民主党人中,哪一位呢
'…'),
(《战争史诗、飞行员和年轻女高音:2020年的基本电影》,
"电影",,
“1917年,这部壮观的影片讲述了一部贫瘠的伊恩史诗”
导演兼合著者萨姆·门德斯(Sam Mendes),他为h
'…'),
(《储存现金:储蓄入门指南》),
"生活与风格",,
“就像跑步或吃蔬菜一样,节省现金”
“长期利益,但并不总是有吸引力。而且,让我们面对现实吧,这是有吸引力的。”
"啊"),,
(《我在寻找幽默和希望》:作家们会读些什么?”
'2020?',
“书”,
“马特·黑格,今年我的阅读习惯一直很阴暗”
“这一年,也许与社会情绪相一致。就像一头猪在嗅气味一样”
“松露,我…),
(‘二十名运动员将点亮2020年东京奥运会’,
“运动”,
“迪娜·阿舍·史密斯英国田径队,100米、200米、4x100米赛博·科,谁”
阿舍·史密斯认为,他对赢得奥运会冠军略知一二
"威尔"),,
(“2020年最激动人心的电影——恐怖片”,
"电影",,
《怨恨》日本经典剧集《儒安》迟来的英语重播
《怨恨》(2002),由安德里亚·里斯伯勒和德米安·比希尔担任侦探
'…'),
(《金永霞评论杀人日记——来自韩国的黑暗故事》),
“书”,
“鉴于记忆丧失已成为小说中常见的手法
“精神病患者是如此受欢迎的角色原型,我们不应该太惊讶”
'…'),
(“美国选举、英国脱欧和中国将在2020年左右市场”,
“生意”,
“在2019年从强劲的市场中获利后,投资者预计2020年”
“带来资产价格进一步上涨和活跃的并购活动。但是”
“英国脱欧,……”,
(《艾略特写给红颜知己的密信》60年后揭晓),
“书”,
“收集了诺贝尔奖获得者艾略特·托的1000多封信”
“他的知己兼缪斯女神艾米丽·黑尔本周亮相,她是在拥有蜜蜂之后”
'…'),
(“克莱夫·刘易斯呼吁工党领袖候选人团结一致”,
"政治",,
总结:工党领袖候选人克莱夫·刘易斯呼吁团结一致
“在即将接替杰里米·科尔宾(Jeremy Corbyn)的候选人中
""悬崖面"),,
(“签证申请:内政部拒绝透露‘高风险’国家”,
"英国新闻",,
总结:竞选团体在内政部拒绝后批评了内政部
“公布算法中哪些国家被视为“风险”的详细信息”
“那个过滤器…),
(“奈萨里车祸的受害者是英国航空公司的乘务员”,
"英国新闻",,
“全英国至少有7人在道路交通中丧生”
“新年期间的碰撞。死亡人数包括三名英国人”
"香港航空公司",,
(“在房子里发现尸体后,这名男子因涉嫌双重谋杀而被拘留”,
"英国新闻",,
“警方逮捕了一名涉嫌在一所房子里谋杀两人的男子”
“在德比郡的杜菲尔德村。谋杀案的调查是劳恩”
'…'),
(《远大前程》:“追求完美已经蚕食了我的身份认同”,
"生活与风格",,
“你需要练习自我同情,”我的心理学家对我说
“我们的第六节课和往常一样,他正在努力寻找一个短语,一个po”
'…'),
(
from urllib.request import urlopen
from bs4 import BeautifulSoup
from pprint import pprint as pp


def main(url):
    r = urlopen(url).read()
    soup = BeautifulSoup(r, 'lxml')
    goal = [(x.a.text, x.select("p")[1].text.split(' ', 1)[1], x.select_one('p.snippet').text)
            for x in soup.select('.article')]
    pp(goal)


main('http://mlg.ucd.ie/modules/COMP41680/assignment2/month-jan-001.html')