Python:regex捕获数据

Python:regex捕获数据,python,regex,Python,Regex,我想请你帮忙 我有一大块数据,看起来像这样: a b : c 901 d : e sda v w : x ads any abc : def 12132 ghi : jkl dasf mno : pqr fas stu : vwx utu a b : c 901 d : e sda 描述:文件以包含单个单词的行开始(它可以以空格开头,空格也可以在单词后面),然后跟随以冒号分隔的属性行(也可以有空格),然后是属性行或带有单个单词

我想请你帮忙

我有一大块数据,看起来像这样:

     a
  b : c 901
   d : e sda
 v
     w : x ads
  any
   abc : def 12132
   ghi : jkl dasf
  mno : pqr fas
   stu : vwx utu
a
  b : c 901
  d : e sda
描述:文件以包含单个单词的行开始(它可以以空格开头,空格也可以在单词后面),然后跟随以冒号分隔的属性行(也可以有空格),然后是属性行或带有单个单词的行。我无法创建正确的正则表达式来捕获以下格式的正则表达式:

{
  "a": [["b": "c 901"], ["d", "e sda"]],
  "v": [["w", "x ads"]],
  "any": ["abc", "def 12132"], ["ghi", "jkl dasf"],
  # etc.
}
以下是我尝试过的:

regex = str()
regex += "^(?:(?:\\s*)(.*?)(?:\\s*))$",
regex += "(?:(?:^(?:\\s*)(.*?)(?:\\s*):(?:\\s*)(.*?)(?:\\s*))$)*$"
pattern = re.compile(regex, re.S | re.M)
但是,它没有找到我需要的东西。你能帮我吗?我知道我可以在没有正则表达式的情况下处理文件,使用逐行迭代器并检查“:”符号,但文件太大,无法以这种方式处理(如果您知道如何在没有正则表达式的情况下快速处理文件,这也是正确的答案,但首先想到的是太慢)

提前谢谢

文件规范形式的p.S.如下所示:

     a
  b : c 901
   d : e sda
 v
     w : x ads
  any
   abc : def 12132
   ghi : jkl dasf
  mno : pqr fas
   stu : vwx utu
a
  b : c 901
  d : e sda

每个部分都以一个单词开头,然后跟随属性行(在两个空格之后),属性用(“:”)分隔,然后是一个属性行或一个单词行。禁止使用其他空格。可能会更简单。

这里真的需要正则表达式吗?请尝试以下伪代码:

result = {}

last = None
for _line in data:
    line = _line.strip( ).split( ":" )
    if len( line ) == 1:
        last = line[ 0 ]
        if last not in result:
            result[ last ] = []
    elif len( line ) == 2:
        obj = [ line[ 0 ].strip( ), line[ 1 ].strip( ) ]
        result[ last ].append( obj )

我希望我能正确理解您的数据结构。

您可以使用此正则表达式

 (?:[\n\r]+|^)\s*(\w+)\s*[\n\r]+(\s*\w+\s*:\s*.*?)(?=[\n\r]+\s*\w+\s*[\n\r]+|$)
您需要将上面的
regex
singleline
dotall
选项进行匹配

组1和组2每次匹配时都匹配您想要的内容

签出..使用点全部选项

# a more golf - like solution
from itertools import groupby

groups = groupby(map(lambda s: map(str.strip,s.split(':')), data), len)
dict((next(i[1])[0], list(next(groups)[1])) for i in groups)
输出:


+1超清晰;这是正确的方法,不需要正则表达式,我在这里有一个答案,我删除了,因为它不是不必要的,这是你需要的解决方案。(可能需要一些调整,但这是你想要的)+1