python中的iso-8859-1和utf8_Python_Encoding_Utf 8_Iso 8859 1

python中的iso-8859-1和utf8

python encoding utf-8

python中的iso-8859-1和utf8,python,encoding,utf-8,iso-8859-1,Python,Encoding,Utf 8,Iso 8859 1,我有两个字符串，我想比较一下 “Hỗ；trợ；ngô；n ngữ；”我认为这是iso-8859-1编码 u'H\u1ed7 tr\u1ee3 ng\xf4n ng\u1eef'unicode 2个字符串具有相同的内容。我想比较一下。如何将第一个字符串转换为与第二个字符串相同的编码？如果您有HTML实体，只需使用HTMLParser模块来取消这些实体： >>> import HTMLParser >>> h = HTMLP

我有两个字符串，我想比较一下

“Hỗ；trợ；ngô；n ngữ；”

我认为这是iso-8859-1编码

u'H\u1ed7 tr\u1ee3 ng\xf4n ng\u1eef'

unicode

2个字符串具有相同的内容。我想比较一下。

如何将第一个字符串转换为与第二个字符串相同的编码？

如果您有HTML实体，只需使用

HTMLParser

模块来取消这些实体：

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.unescape("H&#7895; tr&#7907; ng&#244;n ng&#7919;")
u'H\u1ed7 tr\u1ee3 ng\xf4n ng\u1eef'
>>> print h.unescape("H&#7895; tr&#7907; ng&#244;n ng&#7919;")
Hỗ trợ ngôn ngữ

这些HTML实体使用十进制数，而不是十六进制数

是十六进制的

1ed7

等。它们编码unicode码点，不使用UTF-8或ISO-8859-1。ISO-8859-1或拉丁语-1甚至无法对这些特定的代码点进行编码（根据Google Translate，越南语表示“语言支持”）

如果您有HTML实体，只需使用

HTMLParser

模块来取消这些实体的显示：

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.unescape("H&#7895; tr&#7907; ng&#244;n ng&#7919;")
u'H\u1ed7 tr\u1ee3 ng\xf4n ng\u1eef'
>>> print h.unescape("H&#7895; tr&#7907; ng&#244;n ng&#7919;")
Hỗ trợ ngôn ngữ

这些HTML实体使用十进制数，而不是十六进制数

是十六进制的

1ed7

等。它们编码unicode码点，不使用UTF-8或ISO-8859-1。ISO-859-1或LaTun-1，甚至无法编码这些特定的代码点（越南语为“语言支持”，根据谷歌翻译）。< /P>你使用Python 3还是2.Xi AM使用Python 2.7你使用Python 3还是使用XythAM 2.7？