Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 正则表达式来匹配字符串中任意数量的令牌_Python_Regex - Fatal编程技术网

Python 正则表达式来匹配字符串中任意数量的令牌

Python 正则表达式来匹配字符串中任意数量的令牌,python,regex,Python,Regex,我有以下格式的说话人信息行列表(注:该列表来自语料库): 58 | M | train-other-500 | 30.06 | George Coutts |(管道)将管线分为: 说话人id 性 语料库子集 录音分钟数 演讲者姓名 我想用正则表达式在Python中提取这些信息。到目前为止,我使用了以下正则表达式: (?p.*)\ |(?p.*)(?p.*)\ |(?p.*)\ |(?p.*)(?=*) 这几乎适用于所有情况,除非演讲者名称本身包含管道字符(至少一个演讲者是这样)。然后,正则

我有以下格式的说话人信息行列表(注:该列表来自语料库):

58 | M | train-other-500 | 30.06 | George Coutts

|
(管道)将管线分为:

  • 说话人id
  • 语料库子集
  • 录音分钟数
  • 演讲者姓名
我想用正则表达式在Python中提取这些信息。到目前为止,我使用了以下正则表达式:

(?p.*)\ |(?p.*)(?p.*)\ |(?p.*)\ |(?p.*)(?=*)

这几乎适用于所有情况,除非演讲者名称本身包含管道字符(至少一个演讲者是这样)。然后,正则表达式通过贪婪地匹配第一个组(其中还包含性别和子集信息),以错误的方式拆分不同的组

请参见演示

如何使正则表达式匹配最后一个管道之后的所有内容,作为
speaker\u name


我已经尝试过了,但我真的无法理解这一点…

您可以让您的正则表达式更具体一些:

^(?P<speaker_id>\d+)\s*\|\s*(?P<sex>[MF])\s*\|\s*(?P<subset>.*?)\s*\|\s*(?P<minutes>\d[\d.]*)\s*\|\s*(?P<speaker_name>.*)
^(?P\d+)\s*\\\\\s*(?P[MF])\s*\\\\\\s*(?P.*)\s*\\\\\s*(?P\d[\d.]*)\s*\\\\\s*(?P.*))

细分:

  • ^
    -字符串的开头(如果使用
    re.M
    标志,则为行)
  • (?P\d+)
    -1+位
  • \s*\\\s*
    -
    用0+空格括起来
  • (?P[MF])
    -
    M
    F
    (用于性别)
  • \s*\\\s*
    -
    用0+空格括起来
  • (?P.*)
    -除换行符外的任何0+字符都应尽可能少
  • \s*\\\s*
    -
    用0+空格括起来
  • (?P\d[\d.]*)
    -一个数字,然后是0+个数字或
  • \s*\\\s*
    -
    用0+空格括起来
  • (?P.*)
    -除换行符外的任何0+字符,直到字符串/行的末尾

演讲者id、性别、子集、分钟数、演讲者姓名=行。拆分(“|”,4)
此外,您应该清理数据。您的分隔符应该转义,以便在添加到数据时不会被视为分隔符(即,用引号括起字符串或用其他内容替换字符)。这就成功了!此外,您的解释帮助我更好地解析类似的其他行。谢谢Wiktor!