Python 使用正则表达式从URL中删除空间
我有一段: 《每日东方新闻》是一份学生办的报纸,为伊利诺斯州查尔斯顿的东伊利诺斯大学社区出版。该报创办于1915年。www.dennews。com/media/storage/paper309/news/2005/11/04/news/TheNews。第90-1045667页。shtml在学年的工作日出版,夏季每周出版两次 该论文获得了许多州和国家奖项,包括几项心脏起搏器奖。阿托姆兹。com/search/?sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22每日+东方+新闻%22该报的编辑、制作和广告人员完全由一系列学位课程的学生组成 我想删除上面段落中粗体部分的空格 预期输出: 《每日东方新闻》是一份学生办的报纸,为伊利诺斯州查尔斯顿的东伊利诺斯大学社区出版。该报成立于1915年,在学年的工作日出版,夏季每周出版两次 该论文获得了许多州和国家奖项,包括几项心脏起搏器奖。阿托姆兹。com/search/?sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22每日+东方+新闻%22该报的编辑、制作和广告人员完全由一系列学位课程的学生组成 已尝试使用regexp-Python 使用正则表达式从URL中删除空间,python,regex,Python,Regex,我有一段: 《每日东方新闻》是一份学生办的报纸,为伊利诺斯州查尔斯顿的东伊利诺斯大学社区出版。该报创办于1915年。www.dennews。com/media/storage/paper309/news/2005/11/04/news/TheNews。第90-1045667页。shtml在学年的工作日出版,夏季每周出版两次 该论文获得了许多州和国家奖项,包括几项心脏起搏器奖。阿托姆兹。com/search/?sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22每日+东
(http:/(?:)*?\)(?:)*?\)((?:)*?\)((?:)*?\)((?:)*?\)((?:)*?\)
但是它对第一个URL起作用而不是对第二个URL起作用。因为我用这个((?:)*?\)
来检查带有空格的重复组。第二个URL似乎不起作用。是否有任何方法可以为所有URL做这样的事情
选中此项-不幸的是,这是不可能的,除非您做出假设,例如要求URL显示在句子的末尾,以
.html
结尾等(这是不合理的,特别是因为您示例中的所有链接既不显示在句子的末尾,也不以公共后缀结尾)。为了说明这不可能的原因,请观察您如何无法区分以下两种情况:
一个新的网站:出现了
以及:
新站点:
可能是这样的吧
list = str.split('http://search. atomz. com/search/?sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22daily+eastern+news%22')
nlist = ''.join(list)
print nlist
它返回<代码>http://search.atomz.com/search/?sp_a=sp01089f00&sp_f=iso-8859-1&sp_q=%22每日+东部+新闻%22
您可能需要使用变量等使其复杂化,因为这是一个基本函数。段落是否带有粗体标记,如http://media.www ... .shtml
还是纯文本?您可以简单地使用“(\。\s\s\)+”
模式除去任何尾随或前导空格。不,这不是你想要的,但是是的,这比其他任何东西都简单。