Python 提取标记内的所有内容,但不提取标记本身

Python 提取标记内的所有内容,但不提取标记本身,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我正在使用BeautifulSoup从网站上抓取文本,但我只需要组织的标记。但是,我不能使用text.findAll'p', 因为还有其他我不想要的标签 我想要的文本都包装在一个标记(比如body)中,但当我解析它时,它还需要包含该标记 link = requests.get('link') text = bs4.BeautifulSoup(link.text, 'html.parser').find('body') 我该如何删除body标签 text = bs4.BeautifulSoup(

我正在使用BeautifulSoup从网站上抓取文本,但我只需要组织的标记。但是,我不能使用text.findAll'p', 因为还有其他我不想要的标签

我想要的文本都包装在一个标记(比如body)中,但当我解析它时,它还需要包含该标记

link = requests.get('link')
text = bs4.BeautifulSoup(link.text, 'html.parser').find('body')
我该如何删除body标签

text = bs4.BeautifulSoup(link.text, 'html.parser').find('body').text
这将连接body标记中的所有文本。

这可能会帮助您:

>>> txt = """\
<p>Rahul</p>
<p><i>White</i></p>
<p>City <b>Beston</b></p>
"""

>>> soup = BeautifulSoup(txt, "html.parser")
>>> print("".join(soup.strings))

Rahul
White
City Beston

请提供你想要所有的文本在“body”标签内还是所有的“p”标签在“body”内张贴url或html代码我的理解是OP想要标签内的所有内容。不仅仅是文本,而且它只会找到第一个元素,而不是正文中的所有文本。
soup = BeautifulSoup(html)
bodyTag = soup.find('body')
bodyText = BeautifulSoup(bodyTag, "html.parser")
print bodyText.strings