Python 想知道如何得到泰卢固语的音节吗

Python 想知道如何得到泰卢固语的音节吗,python,Python,我正在研究unicode范围为0C01-0C7F的telugu脚本 你能解释一下如何找出那个单词的音节吗 (从问题复制更新) 我可以对字符进行分类,但在telugu脚本中,一个音节可能包含一个或多个字符,从文件中检索字符时,该音节被分割,无法组合字符,因此如果有人知道telugu脚本文本分类,请帮助我。我不会说telugu(对不起!),但我知道这是一种基于音节的语言,音节由元音(“achchu”s)和辅音(“hallu”s)组成。因此,正如所解释的,你最终得到了“60个符号,其中16个是元音,3

我正在研究unicode范围为0C01-0C7F的telugu脚本 你能解释一下如何找出那个单词的音节吗

(从问题复制更新)

我可以对字符进行分类,但在telugu脚本中,一个音节可能包含一个或多个字符,从文件中检索字符时,该音节被分割,无法组合字符,因此如果有人知道telugu脚本文本分类,请帮助我。

我不会说telugu(对不起!),但我知道这是一种基于音节的语言,音节由元音(“achchu”s)和辅音(“hallu”s)组成。因此,正如所解释的,你最终得到了“60个符号,其中16个是元音,3个元音修饰词,41个辅音”。显示Unicode对应:元音为0C05到0C14(以及0C60和0C61,“vocal”RR和LL);辅音是0C15到0C39;其他代码是许多“符号、标点符号、数字”等等

一个完整的可能的音节表在,但我承认剧本把我甩了,因为我很难分辨什么是什么。如果你会说泰卢古语,或者很容易接触到说泰卢古语的人,你会比我更适合讲述如何从泰卢古语字符流中提取音节。Python与之没有多大关系——它只是众多编程语言中的一种,可以让您实现音节确定所需的任何算法,但它肯定没有内置这样的算法!-)

我不会说泰卢固语(对不起!),但我知道它是一种基于音节的语言,音节由元音(“achchu”s)和辅音(“hallu”s)组成。因此,正如所解释的,你最终得到了“60个符号,其中16个是元音,3个元音修饰词,41个辅音”。显示Unicode对应:元音为0C05到0C14(以及0C60和0C61,“vocal”RR和LL);辅音是0C15到0C39;其他代码是许多“符号、标点符号、数字”等等


一个完整的可能的音节表在,但我承认剧本把我甩了,因为我很难分辨什么是什么。如果你会说泰卢古语,或者很容易接触到说泰卢古语的人,你会比我更适合讲述如何从泰卢古语字符流中提取音节。Python与之没有多大关系——它只是众多编程语言中的一种,可以让您实现音节确定所需的任何算法,但它肯定没有内置这样的算法!-)

在泰卢固语中,音节有几种形式

  • V(独立形式的单词开头)
  • C+V(辅音+元音的从属形式)
  • C+C+V(辅音+辅音+元音)
  • C+C+C+V(辅音+辅音+元音)
如果您使用英文脚本将其音译为泰卢固语(如谷歌音译工具),则许多英文字符可能只构成一个音节

以“stree”(在谷歌音译工具中输入)为例,它在泰卢固语中只构成一个音节。您可以在以下位置分析Telugu字符串:=స్త్ 了解泰卢固语音节是如何形成的

你有两个选择解决这个问题

[1] 如果您的输入是Telugu脚本,请找出代码点序列。并根据元音结束和新的syllalbe开始的时间对代码点序列进行分组


[2] 如果您输入的是英语,对应于泰卢固语字符,那么您需要确定何时将序列分解为多个音节。

在泰卢固语中,音节有几种形式

  • V(独立形式的单词开头)
  • C+V(辅音+元音的从属形式)
  • C+C+V(辅音+辅音+元音)
  • C+C+C+V(辅音+辅音+元音)
如果您使用英文脚本将其音译为泰卢固语(如谷歌音译工具),则许多英文字符可能只构成一个音节

以“stree”(在谷歌音译工具中输入)为例,它在泰卢固语中只构成一个音节。您可以在以下位置分析Telugu字符串:=స్త్ 了解泰卢固语音节是如何形成的

你有两个选择解决这个问题

[1] 如果您的输入是Telugu脚本,请找出代码点序列。并根据元音结束和新的syllalbe开始的时间对代码点序列进行分组

[2] 如果您输入的是英语,对应于泰卢固语字符,那么您需要确定何时将序列分解为多个音节