在Python中使用BeautifulSoup提取HTML段落内的文本_Python_Html_Web Scraping_Beautifulsoup

在Python中使用BeautifulSoup提取HTML段落内的文本

python html web-scraping

在Python中使用BeautifulSoup提取HTML段落内的文本,python,html,web-scraping,beautifulsoup,Python,Html,Web Scraping,Beautifulsoup,标题：销售点威胁激增严重程度：正常严重程度发布日期：2014年12月4日星期四20:27 最近出现了几个新的销售点恶意软件家族，包括LusyPOS，… 分析：在过去的成功和媒体关注的鼓舞下，威胁行为者。。这是我想在Python中使用BeautifulSoup从HTML页面中提取的一段。我能够使用.children和.string方法在标记中获取值。但我无法得到文本“几个新的销售点恶意软件fa…”，这是没有任何标签的段落内。我尝试使用soup.p.text、.get_text（）等

标题：销售点威胁激增 严重程度：正常严重程度
发布日期：2014年12月4日星期四20:27 最近出现了几个新的销售点恶意软件家族，包括LusyPOS，…
分析：在过去的成功和媒体关注的鼓舞下，威胁行为者。。

这是我想在Python中使用BeautifulSoup从HTML页面中提取的一段。我能够使用.children和.string方法在标记中获取值。但我无法得到文本“几个新的销售点恶意软件fa…”，这是没有任何标签的段落内。我尝试使用soup.p.text、.get_text（）等。。但是没有用。
使用with查找所有文本节点，并仅在父标记的直接子项中搜索：

 <a name="533660373"></a> Title: Point of Sale Threats Proliferate Severity: Normal Severity Published: Thursday, December 04, 2014 20:27 Several new Point of Sale malware families have emerged recently, to include LusyPOS,.. Analysis: Emboldened by past success and media attention, threat actors .. 

from bs4 import BeautifulSoup data = """ <a name="533660373"></a> Title: Point of Sale Threats Proliferate Severity: Normal Severity Published: Thursday, December 04, 2014 20:27 Several new Point of Sale malware families have emerged recently, to include LusyPOS,.. Analysis: Emboldened by past success and media attention, threat actors .. """ soup = BeautifulSoup(data) print ''.join(text.strip() for text in soup.p.find_all(text=True, recursive=False))

Several new Point of Sale malware families have emerged recently, to include LusyPOS,..