Python 提取标记内的所有内容，但不提取标记本身_Python_Web Scraping_Beautifulsoup

Python 提取标记内的所有内容，但不提取标记本身

python web-scraping

Python 提取标记内的所有内容，但不提取标记本身,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我正在使用BeautifulSoup从网站上抓取文本，但我只需要组织的标记。但是，我不能使用text.findAll'p'，因为还有其他我不想要的标签我想要的文本都包装在一个标记（比如body）中，但当我解析它时，它还需要包含该标记 link = requests.get('link') text = bs4.BeautifulSoup(link.text, 'html.parser').find('body') 我该如何删除body标签 text = bs4.BeautifulSoup(

我正在使用BeautifulSoup从网站上抓取文本，但我只需要组织的标记。但是，我不能使用text.findAll'p'，因为还有其他我不想要的标签

我想要的文本都包装在一个标记（比如body）中，但当我解析它时，它还需要包含该标记

link = requests.get('link')
text = bs4.BeautifulSoup(link.text, 'html.parser').find('body')

我该如何删除body标签

text = bs4.BeautifulSoup(link.text, 'html.parser').find('body').text

这将连接body标记中的所有文本。

这可能会帮助您：

>>> txt = """\
<p>Rahul</p>
<p><i>White</i></p>
<p>City <b>Beston</b></p>
"""

>>> soup = BeautifulSoup(txt, "html.parser")
>>> print("".join(soup.strings))

Rahul
White
City Beston

请提供你想要所有的文本在“body”标签内还是所有的“p”标签在“body”内张贴url或html代码我的理解是OP想要标签内的所有内容。不仅仅是文本，而且它只会找到第一个元素，而不是正文中的所有文本。

soup = BeautifulSoup(html)
bodyTag = soup.find('body')
bodyText = BeautifulSoup(bodyTag, "html.parser")
print bodyText.strings