(python正则表达式)如何捕获标记之间的字符串

(python正则表达式)如何捕获标记之间的字符串,python,html,regex,tags,Python,Html,Regex,Tags,python 2.7.6 示例文档 <div id="memo_img"> <table style="table-layout: fixed; width: 100%"> <tbody> <tr> <td>This is just simple sentence </td> </t

python 2.7.6

示例文档

   <div id="memo_img">
      <table style="table-layout: fixed; width: 100%">
         <tbody>
            <tr>
              <td>This is just simple sentence
              </td>
           </tr>
         </tbody>
      </table>
   </div>

这只是一个简单的句子
这个html有很多空白

我只想捕捉“这只是一个简单的句子”

我的正则表达式

<table style="table-layout: fixed; width: 100%"><tbody><tr><td>(.*)</td>
(*)
不工作

如何忽略空白和制表符


请帮助我

您也可以使用regex来处理它,我把字符串弄得有点乱,所以您可以看到它在硬模式下是如何工作的:

import re
a = '''
    <table style="table-layout: fixed; width: 100%"><tbody><tr><td>

                                    This is just simple sentence
word
                other          word
 number
                         22    14        </td></tr></tbody></table>
                                    </div>
'''
m = re.search('<td>((.|\n)*?)<\/td>', a)
str = m.group(1)
print ' '.join(str.split())
重新导入
a='''
这只是一个简单的句子
单词
换句话说
数字
22    14        
'''
m=重新搜索(‘((.|\n)*?)’,a)
str=m.group(1)
打印“”。加入(str.split())

结果将是:这只是一个简单的句子单词,其他单词编号22 14

为什么要使用
regex
而不是使用
beautifulsoup
进行html。我的环境只能使用默认库谢谢大家。我会试试HTMLPasser库