Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/csharp/267.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C# 什么是解析波斯语句子的正则表达式?_C#_Regex_Nlp_Text Processing - Fatal编程技术网

C# 什么是解析波斯语句子的正则表达式?

C# 什么是解析波斯语句子的正则表达式?,c#,regex,nlp,text-processing,C#,Regex,Nlp,Text Processing,我正在寻找一个好的.NET正则表达式,可以用来解析波斯语文本中的单个句子。 所以我想到了使用一个模式来进行拆分,就像一个؛跟在空格后面,然后进行拆分。 波斯语中没有大写字母,问号是؟,是一种从右向左的语言。 看这个例子,它有4个句子: (二)(三)(三)(三)(三)(三)(三)(四)(四‌های ریز و درشت این شهر انتخاب می‌کنی که یک روزت را با مردگان همراه شوی. بروی به دقیقه 91؛ به‌جایی که با ت

我正在寻找一个好的.NET正则表达式,可以用来解析波斯语文本中的单个句子。
所以我想到了使用一个模式来进行拆分,就像一个
؛
跟在空格后面,然后进行拆分。
波斯语中没有大写字母,问号是
؟
,是一种从右向左的语言。 看这个例子,它有4个句子:

(二)(三)(三)(三)(三)(三)(三)(四)(四‌های ریز و درشت این شهر انتخاب می‌کنی که یک روزت را با مردگان همراه شوی. بروی به دقیقه 91؛ به‌جایی که با تمام شنیده‌هایت فرق دارد. بروی به مرز بین دنیا و آخرت، به‌جایی که عروجیان راتطهیر می‌کنند، آرایش می‌ک

我发现这个问题很有用,这里有一个英语的正则表达式

    Regex rx = new Regex(@"(\S.+?[.!?])(?=\s+|$)");
foreach (Match match in rx.Matches(str)) {
    int i = match.Index;
    Console.WriteLine(match.Value);
}
这个怎么样:


它匹配所有不包含这些字符的内容,然后是标点符号?

谢谢,但它会删除。؟!؛也来自结果。我想把它们保留在结果语句中。我认为这里不正确的正则表达式是例外:
附加信息:解析“([^!。!!]?+[œ.؛])”-嵌套量词+
([^!؟.؛]+[؟.؛!])