Python 解析'<';带有lxml的符号

Python 解析'<';带有lxml的符号,python,lxml,mathjax,Python,Lxml,Mathjax,我现在正面临一个包含“1$”的mathjax方程的问题!" 从lxml导入html tree=html.fragment\u fromstring html.tostring(树) 给出: '<div> This is a text with mathjax like $11$! </div>' “这是一个包含mathjax的文本,比如$11$!” 如果“如果您使用XML解析器来解析无效的XML,那么您没有使用正确的工具来完成此工作,这将是很好的 其他解决方案可能是

我现在正面临一个包含“1$”的mathjax方程的问题!" 从lxml导入html tree=html.fragment\u fromstring html.tostring(树) 给出:

'<div> This is a text with mathjax like $11$! </div>'
“这是一个包含mathjax的文本,比如$11$!”

如果“如果您使用XML解析器来解析无效的XML,那么您没有使用正确的工具来完成此工作,这将是很好的


其他解决方案可能是编写自定义解析器,或者首先将标记内容传递给标记引擎(cf或),将其转换为正确的HTML,然后使用lxml的HTML解析器(或任何其他HTML解析器FWIW)解析此HTML。

仅lxml在这里不起作用,但使用BeautifulSoup很好

s1=“这是一个包含mathjax的文本,比如$11$!

因为字符串在您的XML@user2799617当然不是!这就是问题所在,也是问题的原因!好的,问题是,我随后使用pandoc将其转换为latex,pandoc去除原始html标记(因此我不能首先使用它):(但是,也许可以应用其他中间标记解析器。因此,您必须推出自己的解决方案。我最初的想法是让lxml避开
<html>This is a text with mathjax like $1<2$, let's see if this works till here $2>1$!</html>