Python 获取textarea的内容

Python 获取textarea的内容,python,html,Python,Html,我正在解析HTML页面,每个页面上都有 … 只需要获取此文本区域的内容 在我的python版本中没有lxml或其他html解析模块,因为它在文本编辑器环境中工作 如何解析名为content[country]的文本区域的开始标记和结束标记之间的文本?假设您仍然可以访问stdlib,那么您可以使用以下内容: import xml.etree.ElementTree as ET s = '<html><textarea name="content[country]">foo&

我正在解析HTML页面,每个页面上都有

只需要获取此文本区域的内容

在我的python版本中没有lxml或其他html解析模块,因为它在文本编辑器环境中工作


如何解析名为
content[country]
的文本区域的开始标记和结束标记之间的文本?

假设您仍然可以访问stdlib,那么您可以使用以下内容:

import xml.etree.ElementTree as ET

s = '<html><textarea name="content[country]">foo</textarea><textarea name="content[country]">bar</textarea></html>'
tree = ET.fromstring(s)
print [n.text for n in tree.iterfind('.//textarea[@name="content[country]"]')]
# ['foo', 'bar']
将xml.etree.ElementTree作为ET导入
s='foobar'
tree=ET.fromstring(s)
打印[n.text for n in tree.iterfind('.//textarea[@name=“content[country]”)]
#['foo','bar']
可怕的重新攻击:

import re
print re.findall(r'<\s*textarea.*?>(.*?)<', s)
重新导入

print re.findall(r'(.*)xml.parsers.expat.expat错误:格式不正确(无效标记)可以用regexp将其解析为字符串吗?
(.*)也不起作用,如果解析的文本区域的内容中有字符,我们似乎必须先转义字符,然后解析