如何在Python中编码/解码JIS X 208、JIS X 212和JIS X 213 kuten字符代码?

如何在Python中编码/解码JIS X 208、JIS X 212和JIS X 213 kuten字符代码?,python,character-encoding,cjk,Python,Character Encoding,Cjk,我想和你一起工作。特别是Kanjidic2.xml.gz文件。然而,汉字编码在JIS X 0208、JIS X 0212、JIS X 0213中有几个字符 Kanjidic2.xml条目的一部分示例: <character> <literal>学</literal> <!-- this is the character I want --> <codepoint> <cp_value cp_type="ucs"

我想和你一起工作。特别是Kanjidic2.xml.gz文件。然而,汉字编码在JIS X 0208、JIS X 0212、JIS X 0213中有几个字符

Kanjidic2.xml条目的一部分示例:

<character>
<literal>学</literal> <!-- this is the character I want -->
<codepoint>
<cp_value cp_type="ucs">5b66</cp_value> <!-- unicode hex value -->
<cp_value cp_type="jis208">1-19-56</cp_value> <!-- kuten code -->
</codepoint>
...
<variant var_type="jis208">1-53-60</variant> <!-- more kuten codes -->
<variant var_type="jis208">1-53-61</variant>
<variant var_type="jis212">1-33-55</variant>

学 
5b66
1-19-56 
...
1-53-60 
1-53-61
1-33-55
我在可用的目录中找不到JIS X 0208、JIS X 0212或JIS X 0213。所有三种JIS编码都包含在中。谈到用ISO 2022解码JIS 208,但它不使用kuten码。到目前为止,我试图用ISO 2022解码kuten代码的尝试还没有成功

如何解码这些JIS字符编码以获得Python中的日语汉字字符?最后,我想把它们换成UTF-8。谢谢。

kutens=[
'1-14-02',
'1-16-01', # 丂 \u4e02 cp_type=“jis212”>1-16-01
'2-01-02', # ↑                         cp_type=“jis213”>2-01-02
'1-19-34', # 1-19-34 蛎 b'\xb3\xc2'b'\\u86ce'b'\xe8\x9b\x8e'
'1-19-56', # 1-19-56 学 b'\xb3\xd8'b'\\u5b66'b'\xe5\xad\xa6'
'1-19-57', # 1-19-57 岳 b'\xb3\xd9'b'\\u5cb3'b'\xe5\xb2\xb3'
'1-19-58', # 1-19-58 楽 b'\xb3\xda'b'\\u697d'b'\xe6\xa5\xbd'1-19-58
'1-60-59', # 1-60-59 樂 b'\xdc\xdb'b'\\u6a02'b'\xe6\xa8\x82'1-60-59
'1-53-60', # 
'1-53-61', # 
'1-33-55', #

“2-05-05”#您不能使用ucs十六进制值(
chr(0x5b66)
)?我可以。这不是问题。问题是我需要解码JIS代码。JIS代码的计算结果可能与ucs十六进制值相同,也可能不相同。有关xml标记的更多信息,请参阅Kanjidic网站。