Php 如何使用可能的多行字符串分析以列分隔的键值文本_Php_Regex_Parsing_Preg Match All

Php 如何使用可能的多行字符串分析以列分隔的键值文本

php regex parsing

Php 如何使用可能的多行字符串分析以列分隔的键值文本,php,regex,parsing,preg-match-all,Php,Regex,Parsing,Preg Match All,我需要解析以下文本： First: 1 Second: 2 Multiline: blablablabla bla2bla2bla2 bla3b and key: value in the middle if strting Fourth: value 值是一个字符串或多行字符串，同时值可以包含“key:blabla”子字符串。应忽略此类子中心化（不作为单独的键值对进行解析）请帮助我使用正则表达式或其他算法理想的结果是： $regex = "/SOME REGEX/"; $matches

我需要解析以下文本：

First: 1
Second: 2
Multiline: blablablabla
bla2bla2bla2
bla3b and key: value in the middle if strting
Fourth: value

值是一个字符串或多行字符串，同时值可以包含“key:blabla”子字符串。应忽略此类子中心化（不作为单独的键值对进行解析）

请帮助我使用正则表达式或其他算法

理想的结果是：

$regex = "/SOME REGEX/";
$matches = [];
preg_match_all($regex, $html, $matches);
// $mathes has all key and value parsed pairs, including multilines values

多谢各位

我尝试使用简单正则表达式，但结果不正确，因为我不知道如何处理多行：

$regex = "/(.+?): (.+?)/";
$regex = "/(.+?):(.+?)\n/";
...

你可以这样做，只要你考虑一个单词，然后在一行的后面跟着冒号是一个新的键开始：

$data = 'First: 1
Second: 2
Multiline: blablablabla
bla2bla2bla2
bla3b and key: value in the middle if strting
Fourth: value';

preg_match_all('/^([a-z]+): (.*?)(?=(^[a-z]+:|\z))/ims', $data, $matches);

var_dump($matches);

这将产生以下结果：

array(4) {
  [0]=>
  array(4) {
    [0]=>
    string(10) "First: 1
"
    [1]=>
    string(11) "Second: 2
"
    [2]=>
    string(86) "Multiline: blablablabla
bla2bla2bla2
bla3b and key: value in the middle if strting
"
    [3]=>
    string(13) "Fourth: value"
  }
  [1]=>
  array(4) {
    [0]=>
    string(5) "First"
    [1]=>
    string(6) "Second"
    [2]=>
    string(9) "Multiline"
    [3]=>
    string(6) "Fourth"
  }
  [2]=>
  array(4) {
    [0]=>
    string(3) "1
"
    [1]=>
    string(3) "2
"
    [2]=>
    string(75) "blablablabla
bla2bla2bla2
bla3b and key: value in the middle if strting
"
    [3]=>
    string(5) "value"
  }
  [3]=>
  array(4) {
    [0]=>
    string(7) "Second:"
    [1]=>
    string(10) "Multiline:"
    [2]=>
    string(7) "Fourth:"
    [3]=>
    string(0) ""
  }
}

您可以使用此模式执行此操作：

$pattern = '~(?<key>[^:\s]+): (?<value>(?>[^\n]*\R)*?[^\n]*)(?=\R\S+:|$)~';

preg_match_all($pattern, $txt, $matches, PREG_SET_ORDER);

print_r($matches);

$pattern='~（？[^:\s]+）：（？（？（？>[^\n]*\R）*？[^\n]*）（？=\R\s+：|$）~；
preg_match_all（$pattern，$txt，$matches，preg_SET_ORDER）；
打印（匹配项）；

您应该有精确的模式来分割子字符串。在您的场景中，您没有任何确切的模式。在第5行，前面有多个单词

：

！=>@埃尼萨伊：是的，我知道，那不是OP想要的？哦，也许你是对的，我没有很好地理解/阅读这个问题。。。但是出于好奇，如果第五行应该被考虑到，那么解决方案是什么呢？@Enissay:key为

（？[^:\s]+）：\h（？（？[^\n]*\R）*？[^\n:]*（？=\R\s+[：].$）

@Enissay:或者更好的

（？[^:\v]+）：\h（？（？[^\n:*\R[^\n:]）（？=>