如何在Python中编码/解码JIS X 208、JIS X 212和JIS X 213 kuten字符代码？_Python_Character Encoding_Cjk

如何在Python中编码/解码JIS X 208、JIS X 212和JIS X 213 kuten字符代码？

python character-encoding

如何在Python中编码/解码JIS X 208、JIS X 212和JIS X 213 kuten字符代码？,python,character-encoding,cjk,Python,Character Encoding,Cjk,我想和你一起工作。特别是Kanjidic2.xml.gz文件。然而，汉字编码在JIS X 0208、JIS X 0212、JIS X 0213中有几个字符 Kanjidic2.xml条目的一部分示例： <character> <literal>学</literal>  <codepoint> <cp_value cp_type="ucs"

我想和你一起工作。特别是Kanjidic2.xml.gz文件。然而，汉字编码在JIS X 0208、JIS X 0212、JIS X 0213中有几个字符

Kanjidic2.xml条目的一部分示例：

<character>
<literal>学</literal> <!-- this is the character I want -->
<codepoint>
<cp_value cp_type="ucs">5b66</cp_value> <!-- unicode hex value -->
<cp_value cp_type="jis208">1-19-56</cp_value> <!-- kuten code -->
</codepoint>
...
<variant var_type="jis208">1-53-60</variant> <!-- more kuten codes -->
<variant var_type="jis208">1-53-61</variant>
<variant var_type="jis212">1-33-55</variant>


学 
5b66
1-19-56 
...
1-53-60 
1-53-61
1-33-55

我在可用的目录中找不到JIS X 0208、JIS X 0212或JIS X 0213。所有三种JIS编码都包含在中。谈到用ISO 2022解码JIS 208，但它不使用kuten码。到目前为止，我试图用ISO 2022解码kuten代码的尝试还没有成功

如何解码这些JIS字符编码以获得Python中的日语汉字字符？最后，我想把它们换成UTF-8。谢谢。

kutens=[
'1-14-02',
'1-16-01', # 丂 \u4e02 cp_type=“jis212”>1-16-01
'2-01-02', # ↑                         cp_type=“jis213”>2-01-02
'1-19-34', # 1-19-34 蛎 b'\xb3\xc2'b'\\u86ce'b'\xe8\x9b\x8e'
'1-19-56', # 1-19-56 学 b'\xb3\xd8'b'\\u5b66'b'\xe5\xad\xa6'
'1-19-57', # 1-19-57 岳 b'\xb3\xd9'b'\\u5cb3'b'\xe5\xb2\xb3'
'1-19-58', # 1-19-58 楽 b'\xb3\xda'b'\\u697d'b'\xe6\xa5\xbd'1-19-58
'1-60-59', # 1-60-59 樂 b'\xdc\xdb'b'\\u6a02'b'\xe6\xa8\x82'1-60-59
'1-53-60', # 
'1-53-61', # 
'1-33-55', #
“2-05-05”#您不能使用ucs十六进制值（chr（0x5b66）
）？我可以。这不是问题。问题是我需要解码JIS代码。JIS代码的计算结果可能与ucs十六进制值相同，也可能不相同。有关xml标记的更多信息，请参阅Kanjidic网站。