Python文本清除删除超链接

Python文本清除删除超链接,python,regex,text-mining,Python,Regex,Text Mining,我从事一个小的文本挖掘项目。我在文本预处理方面有一些问题。有些文本包含不带“https”的超链接,例如: “有关详细信息,请访问我们www.doctorpaul.org” 我想删除这种超链接 text = re.sub(r'https?:\/\/.*\/\w*', ' ', text) text = re.sub(r'[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?', ' ', text) 然而,它并不能很

我从事一个小的文本挖掘项目。我在文本预处理方面有一些问题。有些文本包含不带“https”的超链接,例如: “有关详细信息,请访问我们www.doctorpaul.org” 我想删除这种超链接

text = re.sub(r'https?:\/\/.*\/\w*', ' ', text)
text = re.sub(r'[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?', ' ', text)

然而,它并不能很好地工作。请让我知道如何删除我语料库中的此类脏话


谢谢你的提示和回答

嗨!你能提供一些你的正则表达式匹配和不匹配的文本的例子吗?嗨,我得到了像“www doctorpaul org”这样的东西,我想删除所有这种没有“https://”开头的超链接。感谢您的回答。您可以使用
text.startsWith(“https://”)