Python 给定一个字符串列表，如何使用正则表达式定位匹配子字符串的第一个字符串的位置？_Python_Regex_Python 3.x_List Comprehension

Python 给定一个字符串列表，如何使用正则表达式定位匹配子字符串的第一个字符串的位置？

python regex python-3.x

Python 给定一个字符串列表，如何使用正则表达式定位匹配子字符串的第一个字符串的位置？,python,regex,python-3.x,list-comprehension,Python,Regex,Python 3.x,List Comprehension,我将电子邮件正文解析为字符串列表（每行都是字符串）。作为回复的电子邮件将在底部有一个部分，该部分重复先前的电子邮件，并以“>”开头，如下所示 Hi Dude, This is just an example. On Fri, Apr 1, 2016 at 10:14 AM, Some Dude (somedude@example.com) > The prior email text 我想用NLP对邮件进行一些文本分析，但我想先把垃圾放在底部。我想我想使用的是re模块，通过rege

我将电子邮件正文解析为字符串列表（每行都是字符串）。作为回复的电子邮件将在底部有一个部分，该部分重复先前的电子邮件，并以“>”开头，如下所示

Hi Dude,

This is just an example.

On Fri, Apr 1, 2016 at 10:14 AM, Some Dude (somedude@example.com)

> The prior email text

我想用NLP对邮件进行一些文本分析，但我想先把垃圾放在底部。我想我想使用的是re模块，通过regex找到以下行：

On Fri, Apr 1, 2016 at 10:14 AM, Some Dude (somedude@example.com)

一旦我找到了位置，把列表切到那个位置。但我找不到那条线的位置。也许有更性感的方式来写这篇文章，但我现在已经有了：

pattern = r'\AOn +([A-Z]+[a-z]{2}), +([A-Z]+[a-z]{2}) +([1-31])'
indices = [i for i, x in enumerate(text) if re.search(pattern, x)]

我假设我的问题出在我的正则表达式模式中（它看起来确实有效，并且在类似的地方与行匹配，但我被困在那里，因为索引返回的是一个空集

[]

。在上面提供的示例文本中，我希望它返回4（第5行）。

我将以不同的方式处理此问题。迭代所有行

从

垃圾开始\u开始=-1

当您看到以

开头的行时（不需要正则表达式，只需使用），将

junk\u start

设置为当前行

，如果junk\u start==-1

当您看到一行开始时没有

，请将

junk\u start

设置回

-1

在循环遍历所有行之后，您将有

垃圾\u开始

指向第一行的行号，之后的每一行都以

枚举（文本）开始

是对

text

字符的迭代器。由于要查找行号，必须对行进行迭代器。例如，可以使用

str.split（'\n'）

将

text

拆分为单独的行

考虑到您只需要找到第一条匹配线，可以使用和生成器表达式，如下所示：

>>> next(i for i, x in enumerate(text.split('\n')) if x and re.search(pattern, x))
4

要获取文本的其余部分，您可以连接迭代器的“剩余部分”：

>>> it = enumerate(text.split('\n'))
>>> next(i for i, x in it if x and re.search(pattern, x))
4
>>> '\n'.join(x for _, x in it)
'\n> The prior email text\n'

或者更改正则表达式以匹配整行：

>>> match = re.search(r'On +([A-Z]+[a-z]{2}), +([A-Z]+[a-z]{2}) +([1-31]).*?\n', text)
>>> text[match.end():] # Don't forget to check if match is None
'\n> The prior email text\n'

您应该避免使用正则表达式，尤其是当您只需要查找

字符的位置时

>>> text[text.index('>'):]
'> The prior email text\n'

不需要正则表达式。在创建列表（我的意思是使用迭代器）之前，先过滤它

cleaned = [line for line in source if not line.lstrip().startswith(">")]

看看是否有效。

因此，这肯定有效，我只需调整空行的开始计数。这是有效的，但作为后续操作，如果文本只是一个字符串，根据此处确定的特定行号，我如何分割原始正文文本？

cleaned = [line for line in source if not line.lstrip().startswith(">")]