Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/redis/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Unicode中不存在哪些字符?_Unicode_Localization_Character Encoding - Fatal编程技术网

Unicode中不存在哪些字符?

Unicode中不存在哪些字符?,unicode,localization,character-encoding,Unicode,Localization,Character Encoding,我听说有些字符在Unicode标准中并不存在,尽管有些地区的人们在日常生活中使用这些字符。特别是,我听说最近中国人的名字是由现有的汉字部件组合而成的,但我找不到任何相关的参考资料 例如,以下字符在5000万人中非常常见,但事实上: 有这样的角色列表吗?(图像,或网站列出的图像等字符)很自然,Unicode无法赶上一些新的表意字符,或一些很少使用的符号 但我不太明白这个问题背后的原因。您可以绘制任何您想要的随机符号,它很可能不是Unicode标准字符 或者只是好奇?关于如何处理丢失的unicod

我听说有些字符在Unicode标准中并不存在,尽管有些地区的人们在日常生活中使用这些字符。特别是,我听说最近中国人的名字是由现有的汉字部件组合而成的,但我找不到任何相关的参考资料

例如,以下字符在5000万人中非常常见,但事实上:


有这样的角色列表吗?(图像,或网站列出的图像等字符)

很自然,Unicode无法赶上一些新的表意字符,或一些很少使用的符号

但我不太明白这个问题背后的原因。您可以绘制任何您想要的随机符号,它很可能不是Unicode标准字符

或者只是好奇?

关于如何处理丢失的unicode字符

关于unicode 4.1中缺少的一些字符


希望这能有所帮助。

好吧,Unicode中有很多东西是不存在的(尽管仍在添加新字符)

一些例子:

  • 由于这一点,Unicode对来自不同语言的几个相似字符使用一个代码点。人们不同意这些字符是否真的“相同”;如果你认为它们应该被单独表示,那么这些单独的表示可以说是“缺失”(尽管这是一个哲学问题)
  • 类似地,许多语言(特别是亚洲语言)有时会有一个字符/字形的多个变体。“一个字符具有多个表示形式”(=一个代码点)和“不同字符”(=不同代码点)之间的区别在某种程度上是仲裁性的,因此在某些情况下(例如汉字字符),一些人认为替代变体“缺失”
  • 许多历史性的和很少使用的字符丢失了
  • 许多旧的/历史性的脚本未被涵盖,例如。实际上,有一项计划专门用于在Unicode中包含更多脚本,即SEI

W3C也有一个关于这个主题的页面,有更多的解释。

另外:这是unicode.org的列表,其中有大量来自标准符号部分的字符,令人恼火地没有包括在内

请参阅的“缺少对称版本”部分,了解存在的一组箭头符号,但仅在某些方向上。有些只是愚蠢。例如,有⥂, ⥃, 及⥄, 但没有上一个版本的正确版本

你可以从中看出,他们显然是随机挑选了哪些字母以超级和子脚本的形式支持。例如,它们包括下标元音a、e、o,甚至是schwa(ə),但不包括i,这将非常有用,因为它是数学排版中常见的下标。查看wikipedia文章了解更多详细信息(您需要安装unicode字体,因为至少在撰写本文时,它们没有明确列出常规ascii等价物),但基本上,它们为每个大写和小写超级和子脚本字符随机选择了约一半的拉丁字母


此外,许多便于使用unicode构建形状的符号并不存在

它不支持双唇颤音字母、变为beta、反转为k、

我刚才用铅笔在笔记本上画的神秘而奇怪的字符。;)这:虽然这更多的是一个宣传噱头,而不是一个真实的角色。你可能想缩小问题范围,排除尼克的答案。好的观点,但这应该是一个评论,因为它没有回答问题。只是好奇:-)而不是任何随机符号,我在寻找角色,在日常生活中由真实的人编写的,比如拉富尔·瓦格引用的PDF中列出的。我相信~260个变体选择器是为了解决前两个问题。他们的代码点是180B-180D(缩写为FVS1-3),303E(ɪ)ᴅᴇᴏɢʀᴀᴘʜɪᴄ ᴠᴀʀɪᴀᴛɪᴏɴsᴇʟᴇᴄᴛᴏʀ,IVS),FE00–FE0F(VS1–VS16)和E0100–E01EF(VS17–VS256)。实际上,IVS是不同的:它算作
\p{Other{u Symbol}
\p{Grapheme\u Base}
,而其他的是
\p{nonspace\u Mark}
\p{Grapheme\u Extend}
\p{Default Ignorable\u code\u code}
\p{Variation\u Selector}。我不知道静脉注射到底是为了什么。在脚本方面,FVS1–3是
\p{mongical}
,IVS是
\p{Common}
,VS1–256是
\p{Inherited}
。希望这能有所帮助。在7.0版(2014年)中,线性A似乎已经添加到Unicode中:@Boris:谢谢,编辑。通俗仍然是开放的,虽然:-)。抱歉,但您的“需要小unicode导航器”是完全错误的。微软的一个典型错误是,它错误地用微软的CP1252替换了C1控件。例如,U+0091实际上是Pʀɪᴠᴀᴛᴇ 美国ᴇ Oɴᴇ, 但他们把它列为Lᴇꜰᴛ Sɪɴɢʟᴇ QᴜᴏᴛᴀᴛɪᴏɴMᴀʀᴋ, 实际上是U+2018。我想你会发现、、和更有用、更准确。@tchrist那么我很抱歉。这实际上是一个浏览器问题:网站使用了
&#x(一些十六进制值)
获取字符,并
和#x80
和#9F应表示C1控制代码。但在当前的浏览器中,出于恼人的兼容性原因,编写一个值在0x80–0x9F范围内的字符引用时,会自动将字符转换为在CP1252中为这些字节值获得的字符。因此,如果执行
document.body.innerHTML='€;'
然后读取
document.body.innerHTML.charCodeAt(0)
,实际上得到的是0x20AC,而不是0x80。这在XHTML模式下不会发生。谢谢!双语颤音字母是否有一些人写的字符?是不是有些人经常写测试版和反测试版?