Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/320.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python列出英语以外语言子集中的所有unicode字符_Python - Fatal编程技术网

Python列出英语以外语言子集中的所有unicode字符

Python列出英语以外语言子集中的所有unicode字符,python,Python,我正在训练一个多语言文字的反向去噪自动编码器。为了创建输入、输出,我需要Python中所有可能的unicode和ascii字符的列表。我的数据确实包含诸如“ó”、“é”、“’、”和“€”等字符,以及许多其他我没有完全研究过的字符,因为数据是300000行。我知道我的数据包括俄语、意大利语、荷兰语、捷克语和英语 到目前为止,我的字典还没有找到 [c for c in string.printable] + [chr(i) for i in range(1000, 1100)] + ['’', 'ó

我正在训练一个多语言文字的反向去噪自动编码器。为了创建输入、输出,我需要Python中所有可能的unicode和ascii字符的列表。我的数据确实包含诸如“ó”、“é”、“’、”和“€”等字符,以及许多其他我没有完全研究过的字符,因为数据是300000行。我知道我的数据包括俄语、意大利语、荷兰语、捷克语和英语

到目前为止,我的字典还没有找到

[c for c in string.printable] + [chr(i) for i in range(1000, 1100)] + ['’', 'ó']

但遗憾的是,这并没有包含我所需要的所有字母。

您可以获得一个完整的拉丁unicode字符列表,然后添加所需的每个范围

[chr(i)表示范围内的i(0x0021、0x02FF)]
您可能感兴趣的范围包括:

  • 基本拉丁语(0021–007F)
  • 拉丁语-1补遗(0080–00FF)
  • 拉丁文扩展A(0100–017F)
  • 拉丁文扩展B(0180–024F)
  • 拉丁语扩展附加语(1E00–1EFF)

您可以获得一个完整的拉丁unicode字符列表,然后添加所需的每个范围
[chr(i)for i in range(0x0021,0x02FF)]
添加为答案,这样我就可以给出批准的答案。此外,我不明白否决票的含义,这是一个非常好的问题。“像‘o’、‘e’这样的字符和一个不在string.printable中的奇怪撇号”不是可以直接使用的标准。您需要识别所需的字符,并在这些范围内添加代码点。@usr2564301但我列出的一些字符没有在这些语言的Unicode Wikipedia中列出。同样,对一个人来说可能微不足道的东西对其他人来说也可能不微不足道。@snakecharmerb我列出了我见过的不标准的角色。我无法列出完整的子集,因为数据有300000行长。除非你希望我通过它,得到每一个非ascii字符。那么我就不需要发布这个问题了,是吗?