Internationalization 非英语语言中的特殊字符

Internationalization 非英语语言中的特殊字符,internationalization,locale,Internationalization,Locale,如何生成包含特定区域设置(例如1029捷克语)中所有字符代码的文本文件。我基本上想生成字母表中存在的每个字符的列表?我会用python+beautiful soup编写一个脚本,从以下位置获取所有字符: 我会用python+beautiful soup编写一个脚本,从以下内容中获取所有内容: 如果这是Windows区域设置,只需生成一个包含32到255个字节的文件:区域设置的字节码相同;它们只是对每个字节的解释不同。有关链接,请参阅 例如:字节0xa5在捷克语代码页(1250)中代表“Ą”,而在

如何生成包含特定区域设置(例如1029捷克语)中所有字符代码的文本文件。我基本上想生成字母表中存在的每个字符的列表?

我会用python+beautiful soup编写一个脚本,从以下位置获取所有字符:


我会用python+beautiful soup编写一个脚本,从以下内容中获取所有内容:


如果这是Windows区域设置,只需生成一个包含32到255个字节的文件:区域设置的字节码相同;它们只是对每个字节的解释不同。有关链接,请参阅

例如:字节0xa5在捷克语代码页(1250)中代表“Ą”,而在德语代码页(1252 a.k.a ISO-Latin-1)中代表“¥”


[编辑]注意,这仅适用于Unicode之前的地区,其中一个字节正好映射到一个字符。它不适用于每个字符需要两个或更多字节的任何亚洲语言环境。

如果这是Windows语言环境,只需生成一个包含32到255个字节的文件:语言环境的字节码相同;它们只是对每个字节的解释不同。有关链接,请参阅

例如:字节0xa5在捷克语代码页(1250)中代表“Ą”,而在德语代码页(1252 a.k.a ISO-Latin-1)中代表“¥”

[编辑]注意,这仅适用于Unicode之前的地区,其中一个字节正好映射到一个字符。它不适用于每个字符需要两个或更多字节的任何亚洲语言环境。

CLDR(公共语言环境数据存储库)包含该信息

但是,如果您使用Unicode处理所有事情,那么就没有理由在意了。 欧盟现在有一些成员国在几个“传统”代码页上使用字符:西欧、东欧、土耳其、波罗的海、希腊、西里尔语。Unicode是唯一的方法。

CLDR(公共语言环境数据存储库)包含该信息

但是,如果您使用Unicode处理所有事情,那么就没有理由在意了。
欧盟现在有一些成员国在几个“传统”代码页上使用字符:西欧、东欧、土耳其、波罗的海、希腊、西里尔语。Unicode是唯一的方法。

您使用的是什么语言/环境?您使用的是什么语言/环境?在很多语言中,这可能不会像您预期的那样起作用,尤其是中文、日文、泰文、韩文等。正确,它在亚洲语言上不起作用,但他想知道一些不是Unicode的东西。这在很多语言上可能不会像你所期望的那样起作用,最明显的是中文、日语、泰语、韩语等。没错,它在亚洲语言上不起作用,但他想知道一些不是Unicode的东西。