Python 使用BeautifulSoup解析标记
我遇到了一个关于BeautifulSoup的python编程问题 首先,我需要创建一个函数,从网页的源页面提取所有标签。我是这样做的:Python 使用BeautifulSoup解析标记,python,html,parsing,tags,beautifulsoup,Python,Html,Parsing,Tags,Beautifulsoup,我遇到了一个关于BeautifulSoup的python编程问题 首先,我需要创建一个函数,从网页的源页面提取所有标签。我是这样做的: from bs4 import BeautifulSoup soup=BeautifulSoup(''.join(data)) def parseUsingSoup(content): return soup.findAll('h3') 我试图解析的网站如下: 它只包含一个h3标签。现在这个问题需要我扩展我的函数,这
from bs4 import BeautifulSoup
soup=BeautifulSoup(''.join(data))
def parseUsingSoup(content):
return soup.findAll('h3')
我试图解析的网站如下:
它只包含一个h3标签。现在这个问题需要我扩展我的函数,这样它也会在p标签中返回所有与它相关的内容。它还要求提供一个包含四个元组的事件列表,这些元组给出事件的日期、标题、类型和描述
我真的不知道怎么做。我尝试了各种不同的方法,但没有一种方法能给我正确的结果。提前谢谢。这里有一种方法可以让您获得
下面的所有标签:
然后,您可以将此输出解析为您认为合适的列表。谢谢!这很有帮助。是否有可能从html代码中调用事件的时间(以及类型、标题等)?这样我就可以分别为每个事件创建一个字典(然后将它们放入列表中)?是的,似乎您只需要尝试获取不同的标记,直到找到正确的标记。对于注释的第二部分,可以将结果保存到变量中,然后解析该变量。要获得更详细的答案,请创建一个新问题。
from bs4 import BeautifulSoup
import urllib2
content = 'http://www.auc.nl/news-events/events-and-lectures/events-and-lectures.html?page=1&pageSize=40'
soup = BeautifulSoup(urllib2.urlopen(content))
for x in soup.findAll('h3'):
for y in soup.findAll('p'):
print y