Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/79.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
BeautifulSoup不希望替换html实体_Html_Utf 8_Python 2.7_Beautifulsoup_Html Entities - Fatal编程技术网

BeautifulSoup不希望替换html实体

BeautifulSoup不希望替换html实体,html,utf-8,python-2.7,beautifulsoup,html-entities,Html,Utf 8,Python 2.7,Beautifulsoup,Html Entities,我用MathType从Word文档生成了一些包含mml的html。我有一个python脚本,它使用BeautifulSoup来美化它,但问题是它需要像∠并将其转换为实际字节序列0xE2 0x88 0xA0,这是∠ 象征。这是一个问题,因为0xE2 0x88 0xA0不会显示为∠ 在浏览器中。相反,浏览器将其解释为一系列拉丁字符。这也发生在所有数学实体上,比如Δ∠ − &加上;。。。等等 我浏览了BeautifulSoup文档,看到了如何将实体转换为字节序列,但我没有使用该命令;我所用

我用MathType从Word文档生成了一些包含mml的html。我有一个python脚本,它使用BeautifulSoup来美化它,但问题是它需要像
并将其转换为实际字节序列
0xE2 0x88 0xA0
,这是∠ 象征。这是一个问题,因为
0xE2 0x88 0xA0
不会显示为∠ 在浏览器中。相反,浏览器将其解释为一系列拉丁字符。这也发生在所有数学实体上,比如Δ∠ − &加上;。。。等等

我浏览了BeautifulSoup文档,看到了如何将实体转换为字节序列,但我没有使用该命令;我所用的就是美化()。我在BeautifulSoup文档中没有看到不将实体转换为字节序列的方法

有人知道BeautifulSoup中是否有一个设置,告诉它不要将实体更改为字节序列吗?我希望如此,因为在“美化”运行后必须修复损坏似乎有点愚蠢:)


提前感谢您的帮助

我错过了BeautifulSoup文档的一部分。默认输出格式化程序执行所描述的行为:它们将html实体转换为unicode字符。因此,可以通过使用不同的输出格式化程序来更改此行为。(D'oh)

您可以通过为formatter参数提供一个值来更改此行为:prettify()、encode()或decode()

因此,如果我传入
formatter=“html”
Beauty Soup,它将尽可能将Unicode字符转换为html实体!耶!谢谢你的靓汤


(而且他们有这么好的文档。可惜我没有早点读完整件事。$)

我错过了BeautifulSoup文档的一部分。默认输出格式化程序执行所描述的行为:它们将html实体转换为unicode字符。因此,可以通过使用不同的输出格式化程序来更改此行为。(D'oh)

您可以通过为formatter参数提供一个值来更改此行为:prettify()、encode()或decode()

因此,如果我传入
formatter=“html”
Beauty Soup,它将尽可能将Unicode字符转换为html实体!耶!谢谢你的靓汤

(而且他们有这么好的文档。可惜我没有早点读完整本书。$)