(python正则表达式)如何捕获标记之间的字符串
python 2.7.6 示例文档(python正则表达式)如何捕获标记之间的字符串,python,html,regex,tags,Python,Html,Regex,Tags,python 2.7.6 示例文档 <div id="memo_img"> <table style="table-layout: fixed; width: 100%"> <tbody> <tr> <td>This is just simple sentence </td> </t
<div id="memo_img">
<table style="table-layout: fixed; width: 100%">
<tbody>
<tr>
<td>This is just simple sentence
</td>
</tr>
</tbody>
</table>
</div>
这只是一个简单的句子
这个html有很多空白
我只想捕捉“这只是一个简单的句子”
我的正则表达式
<table style="table-layout: fixed; width: 100%"><tbody><tr><td>(.*)</td>
(*)
不工作
如何忽略空白和制表符
请帮助我您也可以使用regex来处理它,我把字符串弄得有点乱,所以您可以看到它在硬模式下是如何工作的:
import re
a = '''
<table style="table-layout: fixed; width: 100%"><tbody><tr><td>
This is just simple sentence
word
other word
number
22 14 </td></tr></tbody></table>
</div>
'''
m = re.search('<td>((.|\n)*?)<\/td>', a)
str = m.group(1)
print ' '.join(str.split())
重新导入
a='''
这只是一个简单的句子
单词
换句话说
数字
22 14
'''
m=重新搜索(‘((.|\n)*?)’,a)
str=m.group(1)
打印“”。加入(str.split())
结果将是:这只是一个简单的句子单词,其他单词编号22 14为什么要使用
regex
而不是使用beautifulsoup
进行html。我的环境只能使用默认库谢谢大家。我会试试HTMLPasser库