Python 使用beautifulsoup删除p标记内的脚本标记

Python 使用beautifulsoup删除p标记内的脚本标记,python,html,beautifulsoup,html-parsing,Python,Html,Beautifulsoup,Html Parsing,我已经编写了一个代码,它可以从段落中提取内容 from bs4 import BeautifulSoup from bs4 import BeautifulSoup, NavigableString import re soup = BeautifulSoup(open('MUFC.html')) a_tag = soup.find_all('p') #print(a_tag) for x in a_tag: print(x.get_text()) 但是p标记中有一些脚本标记 差不

我已经编写了一个代码,它可以从段落中提取内容

from bs4 import BeautifulSoup
from bs4 import BeautifulSoup, NavigableString
import re


soup = BeautifulSoup(open('MUFC.html'))
a_tag = soup.find_all('p')
#print(a_tag)
for x in a_tag:
    print(x.get_text())
但是p标记中有一些脚本标记

差不多

<p>
<script>
.....
</script>
</p>

.....

这是我不想要的。 我们可以设置一些条件以便忽略get_text()方法的标记吗?

首先,所有
script
标记,然后获取文本:

soup = BeautifulSoup(open('MUFC.html'))

for script in soup.find_all('script'):
    script.extract()

paragraphs = soup.find_all('p')
for paragraph in paragraphs:
    print(paragraph.get_text(strip=True))