Unicode 日本ASCII码

Unicode 日本ASCII码,unicode,cjk,Unicode,Cjk,在哪里可以获得对应于日文汉字、平假名和片假名字符的ASCII码列表。我正在做一个java函数和Javascript,确定它是否是一个日语字符。它在ASCII码中的范围是多少?日语字符将不在ASCII范围内,而是在Unicode中。你想要什么,只是每个字符的字符值?代表美国信息交换标准代码,仅包含128个字符(并非所有字符都可以打印),并基于美国1960年左右的使用需求。它不包括与任何日语字符相关的内容 我相信您需要一些字符的名称,您可以在unicode.org提供的中查找。请参阅我的。正如@co

在哪里可以获得对应于日文汉字、平假名和片假名字符的ASCII码列表。我正在做一个java函数和Javascript,确定它是否是一个日语字符。它在ASCII码中的范围是多少?

日语字符将不在ASCII范围内,而是在Unicode中。你想要什么,只是每个字符的字符值?

代表美国信息交换标准代码,仅包含128个字符(并非所有字符都可以打印),并基于美国1960年左右的使用需求。它不包括与任何日语字符相关的内容

我相信您需要一些字符的名称,您可以在unicode.org提供的中查找。

请参阅我的。正如@coobird提到的,由于许多汉字与汉字重叠,决定要检查的范围可能很难

简而言之,平假名和片假名的Unicode范围为:

  • 平假名:Unicode:3040-309F
  • 片假名:Unicode:30A0–30FF
如果你觉得这个答案很有用,也请


がんばって!

我认为你所说的日语的ASCII代码是日语中的SBCS(单字节字符集)等价物。对于日语,您只有一个由单字节字符和多字节字符组合而成的MBCS(多字节字符集)。因此,对于MBCS中保存的日语文本文件,非日语字符(英语字母和数字以及常见的非字母数字字符)保存为一个字节,日语字符保存为两个字节

假设您所指的不是统一的UNICODE,它是一个统一的DBCS(双字节字符集),其中每个字符正好是两个字节。实际上更正确的是,最近UNICODE也有多个DBC,因为字符集不能容纳其他字符。某些UNICODE字符由4个字节组成,前两个字节已作为前导字符


如果您指的是第一个字符集(MBCS),而不是UNICODE,那么有很多日文字符集,比如Shift-JIS(更流行的一个)。所以我建议你搜索Shift-JIS字符映射。虽然除了Shift-JIS还有其他日文字符集地图

我不会重复ASCII部分。只需看一看。

汉字的Unicode“Script”属性为
Hani
,平假名的“Script”属性为
Hira
,片假名的“Script”属性为
Kana
。在Java中,可以使用character.UnicodeScript类确定角色的“Script”属性:我不知道是否可以在Javascript中确定角色的“Script”属性


当然,大多数汉字都是在中文中使用的汉字;给一个像这样的角色猫, 很难说它是用作汉字还是日语。

好吧,已经有一段时间了,但这里有一个链接,指向平假名、片假名、汉字等及其单字表

但是,正如你可能知道的,Unicode是十六进制的。您可以在程序员模式下使用Windows Calc将它们转换为十进制数字,然后将该数字作为ASCII码输入,它将生成您想要的字符,这取决于您将其输入的内容。它将在MS写字板和Word(而不是记事本)中显示


比如平假名ぁ 是用Unicode编码的3041。3041是十六进制的,转换为十进制的12353。如果您在写字板或Word中输入12353作为ASCII码,即按住Alt,则在数字键盘上输入12353,然后释放Alt,它将打印ぁ. 日语字符的范围似乎是平假名:3040-309f(12352-12447 ASCII)、片假名:30a0-30ff(12448-12543 ASCII)、汉字:4e00-4DB5(19968-19893 ASCII),因此有几个范围。该图表上还有半宽片假名范围。

是的。我需要每个字符的值Unicode不是“双字节字符集”。不要将编码与字符集本身混淆。Unicode标准提供了字符和数字之间的映射(“代码点”)。当您谈到“双字节Unicode”时,您可能指的是UCS2(每个代码点两个字节,不能代表所有Unicode字符)或UTF-16(每个代码点两个或四个字节)。其他编码包括UTF-32(一种四字节编码)和UTF-8(一种每码点使用一个、两个、三个或四个字节的编码)。“Unicode是十六进制的”。嗯。这是一个完全荒谬的说法。代码点只是数字;十六进制只是一种写数字的方式。我肯定我能在网上的某个地方找到十进制的unicode列表。不过,一个有趣的相关问题是“日语有8位扩展ASCII编码吗?”)