Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/19.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Javascript 我可以在文本中检测非日语汉字吗_Javascript_Regex_Unicode - Fatal编程技术网

Javascript 我可以在文本中检测非日语汉字吗

Javascript 我可以在文本中检测非日语汉字吗,javascript,regex,unicode,Javascript,Regex,Unicode,我有一些日文文本,但一些非日文汉字混在里面了。我注意到了这一点,因为我使用的日文字体不支持它们,浏览器使用不同的字体呈现它们。据我所知,这些字符在日语中没有使用,所以它们是错误地出现的(文本来自OCR)。我过去常常在文本中找到汉字,但它似乎包含了所有的汉字,而不仅仅是汉字。有没有可靠的方法来检测这些非日语字符,比如检查unicode的某些部分 我能想到的唯一解决办法是列出一个完整的正在使用的汉字列表(或者更像是找到一个),并检查每个字符是否在列表中,但我怀疑这可能有点慢。尽管如此,如果我找不到更

我有一些日文文本,但一些非日文汉字混在里面了。我注意到了这一点,因为我使用的日文字体不支持它们,浏览器使用不同的字体呈现它们。据我所知,这些字符在日语中没有使用,所以它们是错误地出现的(文本来自OCR)。我过去常常在文本中找到汉字,但它似乎包含了所有的汉字,而不仅仅是汉字。有没有可靠的方法来检测这些非日语字符,比如检查unicode的某些部分

我能想到的唯一解决办法是列出一个完整的正在使用的汉字列表(或者更像是找到一个),并检查每个字符是否在列表中,但我怀疑这可能有点慢。尽管如此,如果我找不到更好的方法来实现这一点,我可能会用这种方法来解决

有没有可靠的方法来检测这些非日语字符,比如检查unicode的某些部分

不需要。您需要简单地枚举所有日语字符,例如查找您的字体支持的所有字符:

(…)检查每个字符是否在列表中,但我怀疑它可能有点慢

不要使用列表,使用哈希集。如果你真的想要一个列表,对它排序并使用二进制搜索。那就不应该太慢了