Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/csharp/293.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C# 基于不存在空间的乌尔都语单词分割_C#_Regex_Urdu - Fatal编程技术网

C# 基于不存在空间的乌尔都语单词分割

C# 基于不存在空间的乌尔都语单词分割,c#,regex,urdu,C#,Regex,Urdu,我有一个乌尔都语单词“لاعلم”和更多类似的单词。如何将我得到的单词“لا”和“علم”分别拆分成一个数组?我曾尝试将单词转换为unicode字符,但我无法检测到“لا”和“علم”之间的中断 英语单词可以很容易地根据空格分开,但我坚持把乌尔都语单词分开,那里没有空格。没有空格,因为只有一个单词的意思是“无知”。事实上,“لا”和“علم”分开并没有任何意义 在乌尔都语(和阿拉伯语脚本)中插入空格,以满足实际需要,即当字体自动将其与相邻字符连接时,需要标定单词。解开连字的唯一方法是在字符之间插

我有一个乌尔都语单词“لاعلم”和更多类似的单词。如何将我得到的单词“لا”和“علم”分别拆分成一个数组?我曾尝试将单词转换为unicode字符,但我无法检测到“لا”和“علم”之间的中断


英语单词可以很容易地根据空格分开,但我坚持把乌尔都语单词分开,那里没有空格。

没有空格,因为只有一个单词的意思是“无知”。事实上,“لا”和“علم”分开并没有任何意义

在乌尔都语(和阿拉伯语脚本)中插入空格,以满足实际需要,即当字体自动将其与相邻字符连接时,需要标定单词。解开连字的唯一方法是在字符之间插入多余的空格。从技术上讲,零宽度无接缝(U+200C)正是为了实现这一目的,但人类学习速度慢,空间容易插入


有些字符不与后面的字母连接,例如,“ا”不会与后面的任何字符连接,但可以与前面的字符(如“ل”)连接,形成连字“لا”。您可以使用这些字符(与阿拉伯语相同的规则),并编写一个自定义的toneizer,在“右连接”字符后结束一个单词,ZWNJ或空格。

乌尔都语中根本没有空格?因为在阿拉伯语中,他们使用类似的字母,但如果他们是两个独立的单词,他们会在“لا”和“علم”之间写一个空格……你是如何解决这个问题的?你也可以使用
要在RezaAghaei和RezaAghaei之间插入
零宽度空间
!这只是一个词,谢谢大家的回复。实际上,我正在开发一个乌尔都语词干提取应用程序,它将具有从输入单词中提取前缀、词干和后缀的功能。因此,我想没有其他方法可以检测乌尔都语单词之间无形的分隔符。