Unicode 如何使日语标准化,以便在Lua中检查禁止使用的单词?
半幅、全幅、片假名、平假名、汉字和使用替代字符(例如そ 而不是ん). Python有一个名为的包,它可以帮助我做我需要做的事情。我想将字符串转换成标准形式,这样我就可以查看我的受限单词列表Unicode 如何使日语标准化,以便在Lua中检查禁止使用的单词?,unicode,lua,word,cjk,Unicode,Lua,Word,Cjk,半幅、全幅、片假名、平假名、汉字和使用替代字符(例如そ 而不是ん). Python有一个名为的包,它可以帮助我做我需要做的事情。我想将字符串转换成标准形式,这样我就可以查看我的受限单词列表 这在Lua中是否可能?为了能够在平假名、片假名和半宽片假名之间转换字符串,您可以将各自的字母字符存储在不同的表中,并在它们之间添加映射(通过索引或键) 从源代码()来看,jcconv也是这样做的 例如,如果要将平假名转换为片假名,可以执行以下操作: 设置一个表,其中每个元素定义为[hiragana]=kat
这在Lua中是否可能?为了能够在平假名、片假名和半宽片假名之间转换字符串,您可以将各自的字母字符存储在不同的表中,并在它们之间添加映射(通过索引或键) 从源代码()来看,jcconv也是这样做的 例如,如果要将平假名转换为片假名,可以执行以下操作:
- 设置一个表,其中每个元素定义为
[hiragana]=katakana
- 逐个字符迭代字符串,如果是这样的话,则进行替换(我发现一个小库正好可以做到这一点:提供一个接受映射表的替换函数)