Text 是否有一个unicode范围是前128个字符的副本?

Text 是否有一个unicode范围是前128个字符的副本?,text,unicode,Text,Unicode,我希望能够在不被计算机解读的情况下,将文字和其他字符输入到文本中。所以我想知道是否有一个范围被定义为映射到与范围0-0x7f(ascii范围)相同的标志符号等 请注意,我声明范围0-0x7f与ascii相同,因此问题不是什么范围映射到ascii 我在问是否还有另一个范围也映射到相同的标志符号。也就是说,渲染时的外观将相同。但在解释时,可能会被视为不同的代码 这样我就可以写作了 打印“你好”世界“” 粗体字符避免0-0x7f(ascii范围) 其他: 我的意思是同形和行为,除了一个不同的代码点外,

我希望能够在不被计算机解读的情况下,将文字和其他字符输入到文本中。所以我想知道是否有一个范围被定义为映射到与范围0-0x7f(ascii范围)相同的标志符号等

请注意,我声明范围0-0x7f与ascii相同,因此问题不是什么范围映射到ascii

我在问是否还有另一个范围也映射到相同的标志符号。也就是说,渲染时的外观将相同。但在解释时,可能会被视为不同的代码

这样我就可以写作了

打印“你好”世界“

粗体字符避免0-0x7f(ascii范围)

其他: 我的意思是同形和行为,除了一个不同的代码点外,一切都是一样的。我跳到整个ascii/128位集合,直接映射(所有集合都添加了一个偏移量)

原因:为了避免任何使用某些ascii字符作为其语言一部分的语言进行解释,但允许在文本字符串中使用任何unicode字符,例如(当uft-8编码时)C、html、css等


我试图重新修正“无保留字”/“字颜色”(字符串文字一种颜色,关键字另一种,变量另一种,数字另一种,等等)的概念,以便字符串文字或变量名(尽管在本例中不是)可以包含任何字符。

取决于您使用的Unicode标准


在UTF-8中,前128个字符具有与ASCII完全对应的代码编号。在UTF-16中,前128个ASCII字符介于0x0000和0x007F(2字节)之间。

取决于您使用的Unicode标准


在UTF-8中,前128个字符具有与ASCII完全对应的代码编号。在UTF-16中,前128个ASCII字符介于0x0000和0x007F(2个字节)之间。

我将问题理解为“是否存在一组与低7位ASCII集同音的代码点”。答案是否定的

有些代码点通常以同形文字呈现(例如,西里尔字母upparcaseАU+0410在许多字体中看起来与ASCII 65相同,在支持此代码点的大多数字体中非常相似),但它们是具有不同语义的不同代码点。类似地,有些代码点基本上呈现相同,但具有特定的语义集,如非中断空间U+00A0,其呈现相同于ASCII 32,但指定为具有特定的换行属性;或者右单引号U+2019,这是一个明确的引号,与它的双ASCII 39“撇号”相反


但总而言之,基本ASCII块中有许多符号与另一代码块中的同形异义词不一致。不过,你也许可以为你的示例句子找到同形异义词或近同形异义词;我将调查IPA语音符号以及希腊语和西里尔语块。

我将问题解释为“是否存在一组与低7位ASCII集同形的代码点”。答案是否定的

有些代码点通常以同形文字呈现(例如,西里尔字母upparcaseАU+0410在许多字体中看起来与ASCII 65相同,在支持此代码点的大多数字体中非常相似),但它们是具有不同语义的不同代码点。类似地,有些代码点基本上呈现相同,但具有特定的语义集,如非中断空间U+00A0,其呈现相同于ASCII 32,但指定为具有特定的换行属性;或者右单引号U+2019,这是一个明确的引号,与它的双ASCII 39“撇号”相反


但总而言之,基本ASCII块中有许多符号与另一代码块中的同形异义词不一致。不过,你也许可以为你的示例句子找到同形异义词或近同形异义词;我将调查IPA语音符号以及希腊语和西里尔语块。

对所问问题的回答是“否”,正如@tripleee所描述的,但如果目的是欺骗或某种娱乐,以下注释可能是相关的:


不包括空格的可打印ASCII字符已在U+FF01到U+FF5E之间复制,但这些字符是用于CJK文本的全宽字符。它们的形状不同(并且注定是不同的):hello  world. (您的浏览器可能无法呈现它们。)因此,它们不是ASCII字符的真正同形字符,但可以用于某些特殊用途。(我不知道这里的目的是什么。)

正如@tripleee所描述的,对所问问题的回答是“否”,但如果目的是欺骗或某种娱乐,以下注释可能是相关的:

不包括空格的可打印ASCII字符已在U+FF01到U+FF5E之间复制,但这些字符是用于CJK文本的全宽字符。它们的形状不同(并且注定是不同的):hello  world. (您的浏览器可能无法呈现它们。)因此,它们不是ASCII字符的真正同形字符,但可以用于某些特殊用途。(我不知道这里的目的是什么。)

Erm,只有一个Unicode标准,它的定义方式是前256个字符与拉丁1相同,这也意味着前128个字符与ASCII相同。Unicode代码点本身始终为21位,无论使用何种转换格式。当然,后者控制它们如何映射到字节。呃,只有一个Unicode标准,它的定义方式是前256个字符与拉丁1相同,这也意味着前128个字符与ASCII相同。Unicode代码点本身始终为21位,无论使用何种转换格式。当然