Python 从字符到字尾的子字符串regex

Python 从字符到字尾的子字符串regex,python,regex,Python,Regex,我正在寻找一个正则表达式术语,它将捕获一个字符串的子集,从一个特定的字符序列(在我的例子中是http)开始,一直到一个空白 我正在用python解决这个问题,处理字符串列表并用“”替换“坏”子字符串 困难源于字符不一定是子字符串中单词的开头。下面的示例中,粗体是我希望捕获的部分: “Pasforcémenthttpwwwwwsudouestfr20101129Lessyndromedeliederedanslactuale2525391381HPmercihttpwwwwGoogleComSil

我正在寻找一个正则表达式术语,它将捕获一个字符串的子集,从一个特定的字符序列(在我的例子中是http)开始,一直到一个空白

我正在用python解决这个问题,处理字符串列表并用“”替换“坏”子字符串

困难源于字符不一定是子字符串中单词的开头。下面的示例中,粗体是我希望捕获的部分:

“Pasforcémenthttpwwwwwsudouestfr20101129Lessyndromedeliederedanslactuale2525391381HPmercihttpwwwwGoogleComSilvus

谢谢

使用:

对于替换(如果内存不是问题):

您可以尝试以下方法:

strings = [] #your list of strings goes here
import re
new_strings = [re.sub("https.*?php|https.*?$", '.', i) for i in strings]

@非常感谢你!不客气,klashxx的解决方案可能比我原来的
http\w+(?=|$)
regexI更好。我计划对20万个字符串的列表应用正则表达式替换,以删除http部分。编译正则表达式,然后在for循环中对每个字符串执行re.sub是最有效的方法吗?@joelross替换是什么?@ctwheels只是删除匹配的部分,所以替换为空格字符“”@joelross考虑到以下字符是空格,您真的想替换为空格吗?您可以只替换为nothing(空字符串)
>>> rep = re.compile(r'http\S+')
>>> rep.sub('', text)
strings = [] #your list of strings goes here
import re
new_strings = [re.sub("https.*?php|https.*?$", '.', i) for i in strings]