如何将所有日语平假名转换为Python中的片假名字符?

如何将所有日语平假名转换为Python中的片假名字符?,python,unicode,normalization,unicode-normalization,Python,Unicode,Normalization,Unicode Normalization,从平假名和片假名的图表来看,似乎可以将日语文本“标准化”为平假名或片假名。构建一个表并实现用于搜索/替换的dictionary/regex表非常简单。有人知道这项工作已经在哪里完成了吗?但是你为什么要这样做?片假名传统上用于从其他语言借来的单词,而平假名用于日语本族语。通过将日语文本规范化为一种或另一种形式,你实际上可能会妨碍阅读(至少对我来说,这会更难,因为我通过规范化来失去上下文) 但在回答你的问题时,这似乎符合你的要求: 使用str.translate,您可以非常快速地完成您想做的事情 然

从平假名和片假名的图表来看,似乎可以将日语文本“标准化”为平假名或片假名。构建一个表并实现用于搜索/替换的dictionary/regex表非常简单。有人知道这项工作已经在哪里完成了吗?

但是你为什么要这样做?片假名传统上用于从其他语言借来的单词,而平假名用于日语本族语。通过将日语文本规范化为一种或另一种形式,你实际上可能会妨碍阅读(至少对我来说,这会更难,因为我通过规范化来失去上下文)

但在回答你的问题时,这似乎符合你的要求:

使用str.translate,您可以非常快速地完成您想做的事情

然而,你为什么要这样做还不清楚

在一种以拉丁字母为基础的语言中,我称之为规范化,包括小写、规范化空白和去除重音等,结果是ASCII。这样做的目的不是为了显示,而是为了在某种模糊搜索/匹配/查找场景中比较用户输入的文本。重点是,口音等方面的错误甚至在有关语言的本地作者中也很常见


鉴于平假名在日语书写系统中所起的作用(单词通常有汉字词干和平假名后缀),我无法想象将平假名字符改为片假名有什么用。。。请告诉我。

是的,但是汉字可以很容易地转换成平假名(如果是日本本土单词)或片假名(如果是借来的)。我猜,基于海报的其他问题,这是用于输入文本的某些处理,在这种情况下,规范化可能是有意义的,只要对输入文本有一组处理。@diverscuba:“其他问题”==一个关于线程和
子流程的问题。谢谢我正在尝试恢复脚本的不同角色。日语的OCR技术不如欧洲语言的OCR准确。我们开发的技术将欧洲精度提高到+99.5%。我们“只”把日语从85%提高到97%。原始日文OCR输出混合了平假名和片假名字符,它们在同一单词中“看起来”相似。我们的校正技术忽略了这些。我想a)在更正之前将所有文本规范化为一个脚本,或b)修复混合字符。不管怎样,我都需要一个皈依者。我试试这些。感谢他们在规范假名方面的许多用途;首先想到的是实现全文搜索。还有各种各样的语言应用程序。可以使用一些python3兼容软件吗