如何剥离前导空格或尾随空格,<;br>;,空<;部门>;,空<;p>;或者在Python中类似?

如何剥离前导空格或尾随空格,<;br>;,空<;部门>;,空<;p>;或者在Python中类似?,python,html-parsing,strip,Python,Html Parsing,Strip,我有用户输入的段落。但是,始终存在前导或尾随的、空的或空的,这些都是毫无意义的,它们会影响输出的格式。如何在Python中很好地正确地剥离它们 用户输入的示例如下所示: <br><div></div> <div>Hello <a href="world.html">World!</a>.</div> <br><br> <div>Image below:<br> &l

我有用户输入的段落。但是,始终存在前导或尾随的

、空的
或空的
,这些都是毫无意义的,它们会影响输出的格式。如何在Python中很好地正确地剥离它们

用户输入的示例如下所示:

<br><div></div>
<div>Hello <a href="world.html">World!</a>.</div>
<br><br>
<div>Image below:<br>
<img src="abc.jpg" /><br><br></div><p></p>

你好

下图:


我想要的理想结果是:

<div>Hello <a href="world.html">World!</a>.</div>
<br /><br />
<div>Image below:<br />
<img src="abc.jpg" /></div>
你好。

下图:

谢谢。

如果我这次理解正确,您可以尝试删除空标签-即没有文本的标签:

>>> from BeautifulSoup import BeautifulSoup as bs
>>> tags = bs('<div></div><p></p><div>Test text.</div><p></p>').findAll()
>>> [ tag for tag in tags if tag.text ]
[<div>Test text.</div>]
>>从BeautifulSoup导入BeautifulSoup作为bs
>>>tags=bs('

测试文本。

')。findAll() >>>[如果tag.text,则在标记中为标记添加标记] [测试文本。]
尝试此功能:

get_text('', '<br/>')
get_text(“”,
我有同样的问题,通过标签将文本分成多行

'<br/>' 


此函数至少可以将这些行连接成一行,这样可以消除此标记的影响。希望能成功

如果您只有几行要处理,这可能是正则表达式的工作。谢谢Levon。我要去美丽集团看看。希望有人以前做过,因为我认为这应该是一个非常常规的html数据清理过程。另外,还有
链接和其他标记,我想保留它们。我只想去掉前导和尾随的无意义标记。我会看看BeautifulSoup,看看它是如何工作的。你好,hllau。当然,我误解了你的问题,请看我的答案的编辑版本,以防现在有用。我已经更新了一点,作为一个好例子。感谢您改进了答案,但它仍然无法解决图像和换行的问题。