Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/314.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用正则表达式从URL中删除空间_Python_Regex - Fatal编程技术网

Python 使用正则表达式从URL中删除空间

Python 使用正则表达式从URL中删除空间,python,regex,Python,Regex,我有一段: 《每日东方新闻》是一份学生办的报纸,为伊利诺斯州查尔斯顿的东伊利诺斯大学社区出版。该报创办于1915年。www.dennews。com/media/storage/paper309/news/2005/11/04/news/TheNews。第90-1045667页。shtml在学年的工作日出版,夏季每周出版两次 该论文获得了许多州和国家奖项,包括几项心脏起搏器奖。阿托姆兹。com/search/?sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22每日+东

我有一段:

《每日东方新闻》是一份学生办的报纸,为伊利诺斯州查尔斯顿的东伊利诺斯大学社区出版。该报创办于1915年。www.dennews。com/media/storage/paper309/news/2005/11/04/news/TheNews。第90-1045667页。shtml在学年的工作日出版,夏季每周出版两次

该论文获得了许多州和国家奖项,包括几项心脏起搏器奖。阿托姆兹。com/search/?sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22每日+东方+新闻%22该报的编辑、制作和广告人员完全由一系列学位课程的学生组成

我想删除上面段落粗体部分的空格

预期输出:

《每日东方新闻》是一份学生办的报纸,为伊利诺斯州查尔斯顿的东伊利诺斯大学社区出版。该报成立于1915年,在学年的工作日出版,夏季每周出版两次

该论文获得了许多州和国家奖项,包括几项心脏起搏器奖。阿托姆兹。com/search/?sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22每日+东方+新闻%22该报的编辑、制作和广告人员完全由一系列学位课程的学生组成

已尝试使用regexp-
(http:/(?:)*?\)(?:)*?\)((?:)*?\)((?:)*?\)((?:)*?\)((?:)*?\)

但是它对第一个URL起作用而不是对第二个URL起作用。因为我用这个
((?:)*?\)
来检查带有空格的重复组。第二个URL似乎不起作用。是否有任何方法可以为所有URL做这样的事情


选中此项-

不幸的是,这是不可能的,除非您做出假设,例如要求URL显示在句子的末尾,以
.html
结尾等(这是不合理的,特别是因为您示例中的所有链接既不显示在句子的末尾,也不以公共后缀结尾)。为了说明这不可能的原因,请观察您如何无法区分以下两种情况:

一个新的网站:出现了

以及:

新站点:


可能是这样的吧

list = str.split('http://search. atomz. com/search/?sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22daily+eastern+news%22')
nlist = ''.join(list)
print nlist
它返回<代码>http://search.atomz.com/search/?sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22每日+东部+新闻%22

您可能需要使用变量等使其复杂化,因为这是一个基本函数。

段落是否带有粗体标记,如
http://media.www ... .shtml
还是纯文本?您可以简单地使用
“(\。\s\s\)+”
模式除去任何尾随或前导空格。不,这不是你想要的,但是是的,这比其他任何东西都简单。