Unicode 提取特定语言的字符

Unicode 提取特定语言的字符,unicode,extract,Unicode,Extract,如何从包含语言字符、字母数字字符和英语字母的文件中仅提取特定语言的字符这取决于几个因素: 字符串是否用UTF-8编码 您想要所有非英语字符,包括符号和标点符号,还是只想要书面语言中的非符号字符 您想捕获非英语或非拉丁语的字符吗?我的意思是,你想要像埃和ç这样的字符,还是只想要浪漫和日耳曼字母以外的字符 最后 你想用什么编程语言来做这件事? 假设您使用的是UTF-8,您不需要基本标点符号,但可以使用其他符号,并且您不需要任何标准拉丁字符,但可以使用重音字符等,那么您可以使用任何语言的字符串正则表达

如何从包含语言字符、字母数字字符和英语字母的文件中仅提取特定语言的字符这取决于几个因素:

字符串是否用UTF-8编码

您想要所有非英语字符,包括符号和标点符号,还是只想要书面语言中的非符号字符

您想捕获非英语或非拉丁语的字符吗?我的意思是,你想要像埃和ç这样的字符,还是只想要浪漫和日耳曼字母以外的字符

最后

你想用什么编程语言来做这件事? 假设您使用的是UTF-8,您不需要基本标点符号,但可以使用其他符号,并且您不需要任何标准拉丁字符,但可以使用重音字符等,那么您可以使用任何语言的字符串正则表达式函数来搜索所有非Ascii字符。这将删除您可能要删除的大部分内容

在php中,它将是:

$string2 = preg_replace('/[^(\x00-\x7F)]*/','', $string1);
但是,这将删除您可能需要或不需要的行尾