Python 使用正则表达式从URL中删除空间_Python_Regex

Python 使用正则表达式从URL中删除空间

python regex

Python 使用正则表达式从URL中删除空间,python,regex,Python,Regex,我有一段：《每日东方新闻》是一份学生办的报纸，为伊利诺斯州查尔斯顿的东伊利诺斯大学社区出版。该报创办于1915年。www.dennews。com/media/storage/paper309/news/2005/11/04/news/TheNews。第90-1045667页。shtml在学年的工作日出版，夏季每周出版两次该论文获得了许多州和国家奖项，包括几项心脏起搏器奖。阿托姆兹。com/search/？sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22每日+东

我有一段：

《每日东方新闻》是一份学生办的报纸，为伊利诺斯州查尔斯顿的东伊利诺斯大学社区出版。该报创办于1915年。www.dennews。com/media/storage/paper309/news/2005/11/04/news/TheNews。第90-1045667页。shtml在学年的工作日出版，夏季每周出版两次

该论文获得了许多州和国家奖项，包括几项心脏起搏器奖。阿托姆兹。com/search/？sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22每日+东方+新闻%22该报的编辑、制作和广告人员完全由一系列学位课程的学生组成

我想删除上面段落中粗体部分的空格
预期输出：
《每日东方新闻》是一份学生办的报纸，为伊利诺斯州查尔斯顿的东伊利诺斯大学社区出版。该报成立于1915年，在学年的工作日出版，夏季每周出版两次
该论文获得了许多州和国家奖项，包括几项心脏起搏器奖。阿托姆兹。com/search/？sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22每日+东方+新闻%22该报的编辑、制作和广告人员完全由一系列学位课程的学生组成
已尝试使用regexp-
（http:/（？：）*？\）（？：）*？\）（（？：）*？\）（（？：）*？\）（（？：）*？\）（（？：）*？\）
但是它对第一个URL起作用而不是对第二个URL起作用。因为我用这个
（（？：）*？\）
来检查带有空格的重复组。第二个URL似乎不起作用。是否有任何方法可以为所有URL做这样的事情

选中此项-
不幸的是，这是不可能的，除非您做出假设，例如要求URL显示在句子的末尾，以
.html
结尾等（这是不合理的，特别是因为您示例中的所有链接既不显示在句子的末尾，也不以公共后缀结尾）。为了说明这不可能的原因，请观察您如何无法区分以下两种情况：
一个新的网站：出现了
以及：
新站点：

可能是这样的吧

list = str.split('http://search. atomz. com/search/?sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22daily+eastern+news%22') nlist = ''.join(list) print nlist
它返回<代码>http://search.atomz.com/search/?sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22每日+东部+新闻%22
您可能需要使用变量等使其复杂化，因为这是一个基本函数。
段落是否带有粗体标记，如
http://media.www ... .shtml
还是纯文本？您可以简单地使用
“（\。\s\s\）+”
模式除去任何尾随或前导空格。不，这不是你想要的，但是是的，这比其他任何东西都简单。