如何剥离前导空格或尾随空格，<；br>；，空<；部门>；，空<；p>；或者在Python中类似？_Python_Html Parsing_Strip

如何剥离前导空格或尾随空格，<；br>；，空<；部门>；，空<；p>；或者在Python中类似？

python

如何剥离前导空格或尾随空格，<；br>；，空<；部门>；，空<；p>；或者在Python中类似？,python,html-parsing,strip,Python,Html Parsing,Strip,我有用户输入的段落。但是，始终存在前导或尾随的、空的或空的，这些都是毫无意义的，它们会影响输出的格式。如何在Python中很好地正确地剥离它们用户输入的示例如下所示： <br><div></div> <div>Hello <a href="world.html">World!</a>.</div> <br><br> <div>Image below:<br> &l

我有用户输入的段落。但是，始终存在前导或尾随的

、空的

或空的

，这些都是毫无意义的，它们会影响输出的格式。如何在Python中很好地正确地剥离它们

用户输入的示例如下所示：

<br><div></div>
<div>Hello <a href="world.html">World!</a>.</div>
<br><br>
<div>Image below:<br>
<img src="abc.jpg" /><br><br></div><p></p>



你好



下图：

我想要的理想结果是：

<div>Hello <a href="world.html">World!</a>.</div>
<br /><br />
<div>Image below:<br />
<img src="abc.jpg" /></div>

你好。

下图：

谢谢。

如果我这次理解正确，您可以尝试删除空标签-即没有文本的标签：

>>> from BeautifulSoup import BeautifulSoup as bs
>>> tags = bs('<div></div><p></p><div>Test text.</div><p></p>').findAll()
>>> [ tag for tag in tags if tag.text ]
[<div>Test text.</div>]

>>从BeautifulSoup导入BeautifulSoup作为bs
>>>tags=bs（'
测试文本。'）。findAll（）
>>>[如果tag.text，则在标记中为标记添加标记]
[测试文本。]

尝试此功能：

get_text('', '<br/>')

get_text（“”，
）

我有同样的问题，通过标签将文本分成多行

'<br/>'

“
”

此函数至少可以将这些行连接成一行，这样可以消除此标记的影响。希望能成功

如果您只有几行要处理，这可能是正则表达式的工作。谢谢Levon。我要去美丽集团看看。希望有人以前做过，因为我认为这应该是一个非常常规的html数据清理过程。另外，还有

链接和其他标记，我想保留它们。我只想去掉前导和尾随的无意义标记。我会看看BeautifulSoup，看看它是如何工作的。你好，hllau。当然，我误解了你的问题，请看我的答案的编辑版本，以防现在有用。我已经更新了一点，作为一个好例子。感谢您改进了答案，但它仍然无法解决图像和换行的问题。