Python 正则表达式来匹配字符串中任意数量的令牌_Python_Regex

Python 正则表达式来匹配字符串中任意数量的令牌

python regex

Python 正则表达式来匹配字符串中任意数量的令牌,python,regex,Python,Regex,我有以下格式的说话人信息行列表（注：该列表来自语料库）： 58 | M | train-other-500 | 30.06 | George Coutts |（管道）将管线分为：说话人id 性语料库子集录音分钟数演讲者姓名我想用正则表达式在Python中提取这些信息。到目前为止，我使用了以下正则表达式：（？p.*）\ |（？p.*）（？p.*）\ |（？p.*）\ |（？p.*）（？=*）这几乎适用于所有情况，除非演讲者名称本身包含管道字符（至少一个演讲者是这样）。然后，正则

我有以下格式的说话人信息行列表（注：该列表来自语料库）：

58 | M | train-other-500 | 30.06 | George Coutts

（管道）将管线分为：

说话人id
性
语料库子集
录音分钟数
演讲者姓名

我想用正则表达式在Python中提取这些信息。到目前为止，我使用了以下正则表达式：

（？p.*）\ |（？p.*）（？p.*）\ |（？p.*）\ |（？p.*）（？=*）

这几乎适用于所有情况，除非演讲者名称本身包含管道字符（至少一个演讲者是这样）。然后，正则表达式通过贪婪地匹配第一个组（其中还包含性别和子集信息），以错误的方式拆分不同的组

请参见演示

如何使正则表达式匹配最后一个管道之后的所有内容，作为

speaker\u name

组

我已经尝试过了，但我真的无法理解这一点…

您可以让您的正则表达式更具体一些：

^(?P<speaker_id>\d+)\s*\|\s*(?P<sex>[MF])\s*\|\s*(?P<subset>.*?)\s*\|\s*(?P<minutes>\d[\d.]*)\s*\|\s*(?P<speaker_name>.*)

^（？P\d+）\s*\\\\\s*（？P[MF]）\s*\\\\\\s*（？P.*）\s*\\\\\s*（？P\d[\d.]*）\s*\\\\\s*（？P.*））

见

细分：

```
^
```
-字符串的开头（如果使用
```
re.M
```
标志，则为行）
```
（？P\d+）
```
-1+位
```
\s*\\\s*
```
-
用0+空格括起来
```
（？P[MF]）
```
-
```
M
```
或
```
F
```
（用于性别）
```
\s*\\\s*
```
-
用0+空格括起来
```
（？P.*）
```
-除换行符外的任何0+字符都应尽可能少
```
\s*\\\s*
```
-
用0+空格括起来
```
（？P\d[\d.]*）
```
-一个数字，然后是0+个数字或
```
\s*\\\s*
```
-
用0+空格括起来
```
（？P.*）
```
-除换行符外的任何0+字符，直到字符串/行的末尾

演讲者id、性别、子集、分钟数、演讲者姓名=行。拆分（“|”，4）

此外，您应该清理数据。您的分隔符应该转义，以便在添加到数据时不会被视为分隔符（即，用引号括起字符串或用其他内容替换字符）。这就成功了！此外，您的解释帮助我更好地解析类似的其他行。谢谢Wiktor！