Python 熊猫:当值是url时,如何避免重复值?

Python 熊猫:当值是url时,如何避免重复值?,python,pandas,Python,Pandas,我的dataframe中有一列文章如下所示: id link 1 https://www.msn.com/rachat-de-soufflet-par-invivo-les-secrets-dun-deal-%C3%A0-2-milliards-deuros/ar-BB1cKCRg 2 https://www.msn.com/rachat-de-soufflet-par-invivo-les-secrets-d-un-deal-%C3%A0-2-milliards-deuros/ar-BB1

我的dataframe中有一列文章如下所示:

id link
1  https://www.msn.com/rachat-de-soufflet-par-invivo-les-secrets-dun-deal-%C3%A0-2-milliards-deuros/ar-BB1cKCRg
2  https://www.msn.com/rachat-de-soufflet-par-invivo-les-secrets-d-un-deal-%C3%A0-2-milliards-deuros/ar-BB1cKCRg
3  other link
例如,前两个URL看起来相同,但在此处发生变化:

d-un-deal

在我的数据框中,我有一些几乎相似的链接。内容是相同的,但链接是变化的,有时两个链接之间的区别是一个字母在其中一个链接中有大写字母,或者只是其他字符不同

例如:

url1 = https://site/presidency...
url2 = https://site/Presidency...

url3 = https://site/news-of-today
url4=与url3相同,但在末尾
?自动播放

如何检查所有链接并删除副本(内容类似,但链接有点变化)?

这里有一个解决方案:


你可以用一个指标来衡量。确定要使用的相似性。

创建一个函数来检测重复的行,然后使用
apply()
来过滤行谢谢,问题是有时它们不是真正的重复行。因为url的值仅在一个字符中更改,例如,对于大写/小写,您可以将所有文本默认为小写并删除重复的文本,对于其他情况,我真的不知道您可以在函数中添加不同的大小写。我认为这不起作用。相似性不能保证链接的内容相同或不同。你无法避免这个问题,但他永远无法对所有案例执行功能,因为案例可能会发生变化(每个案例[如结尾的另一个数字]并不意味着它是相同的内容).OP可以尝试发送请求并比较结果。您应该写一个答案,而不是评论。如果您有解决方案,请回复OP!我只是写了一个解决方案,不是唯一的。。。