Text 如何从文本文件中提取字符

Text 如何从文本文件中提取字符,text,unicode,character,non-ascii-characters,Text,Unicode,Character,Non Ascii Characters,我想从文本文件中提取所有字符以创建子集字体。如何提取和排序字符 例如: 输入“你好,哈里。안녕? 잘 지내니? おはよう。どうもありがとう。" ↓ 输出“,.?颜色あうおがとどはもより내녕니안잘지“在JavaScript中,这将是: let input = "Hello, Harry. 안녕? 잘 지내니? おはよう。どうもありがとう。"; let output = [...new Set(Array.from(input))].sort().join(''); // -> " ,.?Ha

我想从文本文件中提取所有字符以创建子集字体。如何提取和排序字符

例如:

输入“你好,哈里。안녕? 잘 지내니? おはよう。どうもありがとう。"


输出“,.?颜色あうおがとどはもより내녕니안잘지“

在JavaScript中,这将是:

let input = "Hello, Harry. 안녕? 잘 지내니? おはよう。どうもありがとう。";
let output = [...new Set(Array.from(input))].sort().join('');
// -> " ,.?Haelory。あうおがとどはもより내녕니안잘지"

根据韩语字符是以组合形式还是分解形式编写的,您可能必须首先以NFC形式规范化字符串:
let output=[…新集合(Array.from(input.normalize('NFC')))].sort().join(“”)
这没有帮助,问题在于
数组。从
中。不确定正确的预期结果是什么,但字符串的代码点列表“ᄀᄀᄀ각ᆨᆨ是
;因为基本字符
ᄀ U+1100韩文CHOSEONG KIYEOK
ᆨ U+11A8朝鲜文JONGSEONG KIYEOK
是不同的,尽管它们看起来相同,但它们通常会单独出现在结果输出字符串中。。。
let input = "Hello, Harry. 안녕? 잘 지내니? おはよう。どうもありがとう。";
let output = [...new Set(Array.from(input))].sort().join('');
// -> " ,.?Haelory。あうおがとどはもより내녕니안잘지"