简体中文Unicode表

简体中文Unicode表,unicode,cjk,Unicode,Cjk,在哪里可以找到只显示简体中文字符的Unicode表? 我到处找了,但什么也没找到 更新: 我发现还有另一种编码叫做GB2312- -仅包含简化字符。 我当然可以用这个来得到我需要的东西 我还找到了这个将GB2312映射到Unicode的文件- -但我不确定它是否准确 若那个张表不正确,也许有人可以给我指一张正确的表,或者仅仅是一张包含GB2312字符的表,然后用某种方法来转换它们 更新2: 该站点还提供了一个GB/Unicode表,甚至还提供了一个生成文件的Java程序 包含所有GB字符以及

在哪里可以找到只显示简体中文字符的Unicode表? 我到处找了,但什么也没找到

更新:
我发现还有另一种编码叫做GB2312-

-仅包含简化字符。
我当然可以用这个来得到我需要的东西

我还找到了这个将GB2312映射到Unicode的文件-

-但我不确定它是否准确

若那个张表不正确,也许有人可以给我指一张正确的表,或者仅仅是一张包含GB2312字符的表,然后用某种方法来转换它们

更新2:
该站点还提供了一个GB/Unicode表,甚至还提供了一个生成文件的Java程序 包含所有GB字符以及Unicode等效字符:

我不确定这是否容易做到。汉字是用Unicode统一的,所以如何做到这一点还不清楚。但是Unihan数据库()可能有您需要的数据。

根据简体中文v。在许多情况下,传统、汉字或其他格式由字体呈现决定。因此,虽然您可以选择一些简体中文代码点,但由于许多字符不再是不同的,因此此列表将根本不完整。

我不相信有一个只包含简体代码点的表。我认为它们都集中在了文件中,文件中包含了这些信息。例如,一对繁体/简体字是:

U+673A  kTraditionalVariant     U+6A5F
U+6A5F  kSimplifiedVariant      U+673A
在上述情况下,U+6A5F为機, 传统形式的机 (U+673A)

另一种方法是使用该项目,该项目出版了一本汉字和复合词词典(繁体和简体)。每个条目看起来像:

宕機 宕机 [当机]/使(计算机)崩溃/台语當機|当机[当4吉1]/

第一列是繁体字,第二列是简化的


要获取所有简化字符,请阅读此文本文件,并列出第二列中出现的每个字符。请注意,有些字符可能不会单独出现(仅以复合形式出现),因此仅查看单个字符条目是不够的。

OP没有指明它们使用的是哪种语言,但如果您使用的是Ruby,我已经编写了一个可以区分简体中文和繁体中文(加上韩语和日语作为奖励)的示例。正如格雷格在回答中所建议的那样,它依赖于一个经过提炼的
Unihan_Variants.txt
版本来确定哪些字符是完全简化的,哪些是完全传统的

样本:

p string
=> "我的氣墊船充滿了鱔魚."
> string.chinese?
=> true
> string.traditional_chinese?
=> true
> string.simplified_chinese?
=> false
但正如官方适时警告的那样,这需要相当大的文本片段才能可靠地工作,并且会给短字符串带来误导性的结果。考虑日本对东京:

p string
=> "東京"
> string.chinese?
=> true
> string.traditional_chinese?
=> true
> string.japanese?
=> false

由于这两个字符碰巧也是有效的繁体中文,并且没有专门的日文字符,因此无法正确识别。

这里是我制作的所有简体中文字符的正则表达式。出于某种原因,Stackoverflow正在抱怨,所以它被链接到下面的粘贴箱中

您会注意到,此列表的特征是范围而不是每个字符,但这些是utf-8字符,而不是转义表示。从2010年左右开始,它在一次或另一次迭代中为我提供了很好的服务。希望其他人现在都能利用它


如果您不想要简化的字符(我无法想象为什么,它不会在9年内出现一次),请迭代
[]中的所有字符一-龥']并尝试建立一个新列表。或者运行两个正则表达式,其中一个检查它是否为中文,但不是简体中文

在哪里可以找到Unihan_Variants.txt?因此,如果我使用Unihan_Variants.txt文件,我只需找到每一行带有ktradionalvariant的代码,并在该行的开头使用该代码,这将为我提供所有简单的ified unicode字符?@cmann:这里有最新的Unihan数据库:。请注意,只有一些字符同时具有繁体和简体变体,因此并非所有字符都在
Unihan\u variants.txt
中有一个条目。我想这取决于您想要的是“简体中文中使用的所有字符”,还是“只有简体字与繁体字不同"。我想可能不需要所有的汉字,我相信只有最常见的汉字就足够了?也许是中文学校里教的汉字?@cmann:那样的话,看看词表。这些是中国境内的官方中文水平测试。这肯定不是不可能的吗?在里面例如,在Flash IDE中,您可以选择繁体中文、简体中文或全中文。它们是如何做到的?字体选择将涵盖字形选择。因此,当一个特定代码点有多种样式时,简体中文字体将显示简体中文字形。Greg的答案完全准确;页面链接是主页。它有一个到数据库的web界面,但支持文件链接在页面上:“要访问最新版本的原始数据文件(Unihan.zip),请参阅。”我在阅读此范围后对此进行了第二次访问。我是一个懂简体中文和繁体中文的中国人。这是一项伟大的工作!代码点列表文件()这是一部很棒的作品。想知道为什么对这个答案投了一些赞成票…pastebin链接不见了,你能重新发布一个链接吗?如果他们删除了它,我实际上不知道它在哪里。我确实标记了它以永世长存。互联网上的一些平民可能因为版权要求而感到悲伤。如果我在旅行中遇到它,我会重新发布。我把它放在某处了但还有一个问题。