Python:regex捕获数据_Python_Regex

Python:regex捕获数据

python regex

Python:regex捕获数据,python,regex,Python,Regex,我想请你帮忙我有一大块数据，看起来像这样： a b : c 901 d : e sda v w : x ads any abc : def 12132 ghi : jkl dasf mno : pqr fas stu : vwx utu a b : c 901 d : e sda 描述：文件以包含单个单词的行开始（它可以以空格开头，空格也可以在单词后面），然后跟随以冒号分隔的属性行（也可以有空格），然后是属性行或带有单个单词

我想请你帮忙

我有一大块数据，看起来像这样：

     a
  b : c 901
   d : e sda
 v
     w : x ads
  any
   abc : def 12132
   ghi : jkl dasf
  mno : pqr fas
   stu : vwx utu

a
  b : c 901
  d : e sda

描述：文件以包含单个单词的行开始（它可以以空格开头，空格也可以在单词后面），然后跟随以冒号分隔的属性行（也可以有空格），然后是属性行或带有单个单词的行。我无法创建正确的正则表达式来捕获以下格式的正则表达式：

{
  "a": [["b": "c 901"], ["d", "e sda"]],
  "v": [["w", "x ads"]],
  "any": ["abc", "def 12132"], ["ghi", "jkl dasf"],
  # etc.
}

以下是我尝试过的：

regex = str()
regex += "^(?:(?:\\s*)(.*?)(?:\\s*))$",
regex += "(?:(?:^(?:\\s*)(.*?)(?:\\s*):(?:\\s*)(.*?)(?:\\s*))$)*$"
pattern = re.compile(regex, re.S | re.M)

但是，它没有找到我需要的东西。你能帮我吗？我知道我可以在没有正则表达式的情况下处理文件，使用逐行迭代器并检查“：”符号，但文件太大，无法以这种方式处理（如果您知道如何在没有正则表达式的情况下快速处理文件，这也是正确的答案，但首先想到的是太慢）

提前谢谢

文件规范形式的p.S.如下所示：

     a
  b : c 901
   d : e sda
 v
     w : x ads
  any
   abc : def 12132
   ghi : jkl dasf
  mno : pqr fas
   stu : vwx utu

a
  b : c 901
  d : e sda

每个部分都以一个单词开头，然后跟随属性行（在两个空格之后），属性用（“：”）分隔，然后是一个属性行或一个单词行。禁止使用其他空格。可能会更简单。

这里真的需要正则表达式吗？请尝试以下伪代码：

result = {}

last = None
for _line in data:
    line = _line.strip( ).split( ":" )
    if len( line ) == 1:
        last = line[ 0 ]
        if last not in result:
            result[ last ] = []
    elif len( line ) == 2:
        obj = [ line[ 0 ].strip( ), line[ 1 ].strip( ) ]
        result[ last ].append( obj )

我希望我能正确理解您的数据结构。

您可以使用此正则表达式

 (?:[\n\r]+|^)\s*(\w+)\s*[\n\r]+(\s*\w+\s*:\s*.*?)(?=[\n\r]+\s*\w+\s*[\n\r]+|$)

您需要将上面的

regex

与

singleline

或

dotall

选项进行匹配
组1和组2每次匹配时都匹配您想要的内容
签出..使用点全部选项

# a more golf - like solution from itertools import groupby groups = groupby(map(lambda s: map(str.strip,s.split(':')), data), len) dict((next(i[1])[0], list(next(groups)[1])) for i in groups)
输出：

+1超清晰；这是正确的方法，不需要正则表达式，我在这里有一个答案，我删除了，因为它不是不必要的，这是你需要的解决方案。（可能需要一些调整，但这是你想要的）+1