如何剥离前导空格或尾随空格,<;br>;,空<;部门>;,空<;p>;或者在Python中类似?
我有用户输入的段落。但是,始终存在前导或尾随的如何剥离前导空格或尾随空格,<;br>;,空<;部门>;,空<;p>;或者在Python中类似?,python,html-parsing,strip,Python,Html Parsing,Strip,我有用户输入的段落。但是,始终存在前导或尾随的、空的或空的,这些都是毫无意义的,它们会影响输出的格式。如何在Python中很好地正确地剥离它们 用户输入的示例如下所示: <br><div></div> <div>Hello <a href="world.html">World!</a>.</div> <br><br> <div>Image below:<br> &l
、空的
或空的
,这些都是毫无意义的,它们会影响输出的格式。如何在Python中很好地正确地剥离它们
用户输入的示例如下所示:
<br><div></div>
<div>Hello <a href="world.html">World!</a>.</div>
<br><br>
<div>Image below:<br>
<img src="abc.jpg" /><br><br></div><p></p>
你好
下图:
我想要的理想结果是:
<div>Hello <a href="world.html">World!</a>.</div>
<br /><br />
<div>Image below:<br />
<img src="abc.jpg" /></div>
你好。
下图:
谢谢。如果我这次理解正确,您可以尝试删除空标签-即没有文本的标签:
>>> from BeautifulSoup import BeautifulSoup as bs
>>> tags = bs('<div></div><p></p><div>Test text.</div><p></p>').findAll()
>>> [ tag for tag in tags if tag.text ]
[<div>Test text.</div>]
>>从BeautifulSoup导入BeautifulSoup作为bs
>>>tags=bs('测试文本。')。findAll()
>>>[如果tag.text,则在标记中为标记添加标记]
[测试文本。]
尝试此功能:
get_text('', '<br/>')
get_text(“”,
)
我有同样的问题,通过标签将文本分成多行
'<br/>'
“
”
此函数至少可以将这些行连接成一行,这样可以消除此标记的影响。希望能成功 如果您只有几行要处理,这可能是正则表达式的工作。谢谢Levon。我要去美丽集团看看。希望有人以前做过,因为我认为这应该是一个非常常规的html数据清理过程。另外,还有
链接和其他标记,我想保留它们。我只想去掉前导和尾随的无意义标记。我会看看BeautifulSoup,看看它是如何工作的。你好,hllau。当然,我误解了你的问题,请看我的答案的编辑版本,以防现在有用。我已经更新了一点,作为一个好例子。感谢您改进了答案,但它仍然无法解决图像和换行的问题。