Encoding 获取任何模糊字符集/编码的字符映射(例如ibm-943_P14A-2000)

Encoding 获取任何模糊字符集/编码的字符映射(例如ibm-943_P14A-2000),encoding,character-encoding,chinese-locale,shift-jis,Encoding,Character Encoding,Chinese Locale,Shift Jis,最近,我们的软件出现了一个问题,我们的Shift JIS编码无法识别某些模糊的汉字。我做了一个算法来读取任何Shift JIS字符串,试图找到任何“越界”汉字,并将该字符串改为UTF-8(它有更多字符,但占用更多空间) 为了找到什么汉字不会被覆盖,我需要得到一张ibm-943_P14A-2000编码的字符地图 在哪里可以找到这些字符集的映射? 通过web搜索很容易找到UTF8查找之类的内容,但我根本找不到一个图表/表格/文件,其中的值与此编码中的值相对应 如果你能为我指出任何方向,无论多么模糊,

最近,我们的软件出现了一个问题,我们的Shift JIS编码无法识别某些模糊的汉字。我做了一个算法来读取任何Shift JIS字符串,试图找到任何“越界”汉字,并将该字符串改为UTF-8(它有更多字符,但占用更多空间)

为了找到什么汉字不会被覆盖,我需要得到一张ibm-943_P14A-2000编码的字符地图

在哪里可以找到这些字符集的映射? 通过web搜索很容易找到UTF8查找之类的内容,但我根本找不到一个图表/表格/文件,其中的值与此编码中的值相对应


如果你能为我指出任何方向,无论多么模糊,我都会非常感激。

ICU项目有一组相当大的字符集映射表,包括。中解释了“1999”和“2000”之间的区别,您可以在旧表中查看旧版本的ICU源代码。表的格式如下所述


至于原始字符映射(IBM-943的字符集),它们是。

谢谢!我看过其中一个.ucm文件,我只是不确定它们是否有意义。经过进一步研究,我认为其中一些往返值可能不正确。fb8d是给我带来麻烦的那个。检查另一个来源,其中他们提到了很多有往返问题的值:然后,编码可能是任何东西。