Unicode中视觉上相同的字符

Unicode中视觉上相同的字符,unicode,similarity,Unicode,Similarity,我想为Unicode中的特定字符找到视觉上相同的字符。 我知道如何找到角色的规范分解或兼容性分解;但是他们没有给我想要的。 我想找到视觉上相同(不相似)的字符,它们唯一的区别就是大小 例如,我想要:(s,s)或(s,s)(其代码点不同)。 我不想要(ß,β)或(e,é) 有什么建议吗?谢谢。对于特定字符,您可以从Unicode标准中代码图表中的注释开始。注释通常出于各种原因引用其他字符,包括形状的相似性或一致性。但这些注释并不意味着涵盖所有内容 你也可以在上画你的角色,并要求它识别它。你经常会得

我想为Unicode中的特定字符找到视觉上相同的字符。 我知道如何找到角色的规范分解或兼容性分解;但是他们没有给我想要的。 我想找到视觉上相同(不相似)的字符,它们唯一的区别就是大小

例如,我想要:(s,s)或(s,s)(其代码点不同)。 我不想要(ß,β)或(e,é)


有什么建议吗?谢谢。

对于特定字符,您可以从Unicode标准中代码图表中的注释开始。注释通常出于各种原因引用其他字符,包括形状的相似性或一致性。但这些注释并不意味着涵盖所有内容

你也可以在上画你的角色,并要求它识别它。你经常会得到一长串视觉上相似的备选方案

正如@TedHopp在他的评论中所写,视觉识别依赖于字体。例如,“s”和“s”的形状不一定相同;在大多数字体中,它们并非如此–基本形式相同,但笔划宽度变化、曲率、衬线等方面存在各种差异。但是,在包含它们的任何字体中,某些字符在视觉上可能是相同的,例如拉丁大写字母A、希腊大写字母alphaΑ和西里尔大写字母A


您没有指定研究的目的,但您可能正在做Unicode联盟在某种程度上已经完成的事情。请参阅Unicode安全注意事项,其中还包含对相关工作的参考,包括Unicode安全机制,其中包含confusables.txt,建议IDN使用可混淆映射(即,对于特定上下文,但也可能出于其他目的)。

Unicode未指定字符的外观。这是字体问题。(标准使用代表性图像,但它们不是标准的一部分。)例如,您希望大写字母I和数字1以及小写字母l一起使用吗?在某些字体中它们是相同的,而在其他字体中它们都是不同的。很好的解释!还有一些字符在视觉上是相同的,但它们是不同的字形,或者具有不同的声音或角色。例如,拉丁语“H”(如“Hot”)与西里尔语“H”(如“ааааааа”——第一个字母发音类似拉丁语“N”)。让其他读者知道Unicode字符代表“字形”,但不代表其含义,当然也不代表“字形”,这可能会有所帮助