Php 如何在英语西里尔语和西里尔语英语中拆分句子？_Php_Regex_String_Split_Cyrillic

Php 如何在英语西里尔语和西里尔语英语中拆分句子？

php regex string

Php 如何在英语西里尔语和西里尔语英语中拆分句子？,php,regex,string,split,cyrillic,Php,Regex,String,Split,Cyrillic,我有英文西里尔字母的示例文本： “No,” the old man said.” But we have .Haven’t we?” Бале , -гуфт -Аммо мо бовар дорем . Дуруст”? “Yes ,”the boy said . Can I offer you a beer on the Terrace and then we’ll take the stuff home . Албатта . Мехоҳӣ, ки дар каҳва

我有英文西里尔字母的示例文本：

“No,” the  old  man  said.” But we have .Haven’t we?” Бале , -гуфт  -Аммо мо бовар дорем . Дуруст”?  
“Yes ,”the boy said . Can I offer you a  beer on the  Terrace and then we’ll take the stuff home . 

 Албатта . Мехоҳӣ, ки дар каҳвахона  бароят оби ҷав  бигирам?  Баъд чизҳоро  ба хона  мебарем .  

“Why not ?”  the  old man said . “  Between fishermen.”  
Чаро  не ?! гуфт  пирамард .- Моҳигир моҳигириро метавонад  даъват кунад.

如何从该文本中获取样本结果到数组：

$englishCyrillic = [
   "No, the  old  man  said. But we have .Haven’t we?" => "Бале , -гуфт  -Аммо мо бовар дорем . Дуруст?",
   "Yes ,the boy said . Can I offer you a  beer on the  Terrace and then we’ll take the stuff home." => "Албатта . Мехоҳӣ, ки дар каҳвахона  бароят оби ҷав  бигирам?  Баъд чизҳоро  ба хона  мебарем.",
   "Why not ?  the  old man said . Between fishermen." => "Чаро  не ?! гуфт  пирамард .- Моҳигир моҳигириро метавонад  даъват кунад.",
];

我还有西里尔语的英语句子类型：

Куҷо дард мекунад?  Show me where it hurts?    
Нафас гиред / Нафас нагиред.    Breath / Do not breath     
Чуқуртар нафас гиред    Breathe deeply

如何从本文中获取示例结果：

$cyrillicEnglish = [
   "Куҷо дард мекунад?" => "Show me where it hurts?",
   "Нафас гиред / Нафас нагиред." => "Breath / Do not breath",
   "Чуқуртар нафас гиред" => "Breathe deeply",
];

我对正则表达式感到厌倦，但我的代码无法按句子分割并返回所需的结果：

搜索英文单词：

preg_match_all('/[\p{Latin}]+/u', $text, $matches);

搜索西里尔文字：

preg_match_all('/[\p{Cyrillic}]+/u', $text, $matches);

第一种格式的字符串可以逐行读取，您只需将奇数添加为英语，偶数添加为西里尔文。不需要正则表达式

对于第二种格式，您可以使用

preg_match('~(.*\p{Cyrillic}\S*)\h+(.+)~u', $s, $matches)

然后单击“创建阵列”：

array_combine($matches[1], $matches[2])

请参见

第一种格式可以逐行读取，奇数是英文，偶数是西里尔文。不需要正则表达式。对于第二种格式，您可能会使用

preg\u match（'~（..*\p{Cyrillic}\S*）\h+（.++）~u'，$S，$matches）

array\u combine（$matches[1]，$matches[2]）

此代码对我@Wiktor Stribiżew无效。您能否将示例代码上载到

3v4i上载程序

？请参阅@Wiktor Stribiżew了解第一种格式“我有另一种类型的文本，其中在文本上没有\n\r行”。我如何找到英语=>使用正则表达式作为第一种格式的西里尔语句子？现在我更新了第一种文本格式@Wikto rStribiżew