Python 比较字符串与修改的字符串&;部分字符串

Python 比较字符串与修改的字符串&;部分字符串,python,Python,我有一个链接列表,我想看看它们是否列在我的否认文件中 我的拒绝文件包含两个URL(例如http://getpaydayloan.org/blog/blog-how-to-apply-for-online-payday-loans-san)以及整个域,列为域:getpaydayloan.org 新的URL文件仅包含URL,例如http://getpaydayloan.org/blog/blog-how-to-apply-for-online-payday-loans-san 我想看看新的URL是否

我有一个链接列表,我想看看它们是否列在我的否认文件中


我的拒绝文件包含两个URL(例如
http://getpaydayloan.org/blog/blog-how-to-apply-for-online-payday-loans-san
)以及整个域,列为
域:getpaydayloan.org


新的URL文件仅包含URL,例如
http://getpaydayloan.org/blog/blog-how-to-apply-for-online-payday-loans-san

我想看看新的URL是否已经在否认文件中。我目前正在使用
diff=set(url\u set)-set(disavous\u url)
生成一个diff,但是我还需要使用
domain:url.com
格式检查它们是否在disavous文件中

我该怎么做那样的事


如果有帮助,下面是整个脚本:

这里有一个函数,用于检查url是否包含任何被拒绝的域

def inDisavow(url, disavowDomainList):
    for domain in disavowDomainList:
        if domain in url:
            return true
    return false

David function for Fund的一些替代定义:

返回任意域(url中的域用于拒绝DomainList中的域)
返回任意(映射(url.\uuuuu包含\uuuuuu,否认域列表))


(为了提高内存效率,用Python 2中的
itertools.imap
替换
map
)http://getpaydayloan.org/blog/blog-how-to-apply-for-online-payday-loans-san不是一个域…您可能需要查看哎呀,对不起,是指URL。谢谢。有很多有效的方法可以做到这一点,但只有在有大量数据的情况下才有必要。您希望这两个文件中有多少行?在两个文件上进行一个简单的嵌套循环就足够了。@Alexall Nexted循环很好(我认为)。在否认中可能有几千个,在URL中大约有50个。这些都是我们正在比较的
http://someurl.com/123
在指向
http://someurl.com/123
在否认中,但如果我们比较
http://someurl.com/123
域:someurl.com
。我认为让我绊倒的部分是能够解析域;如果我可以去掉
http://
/123
,请保留
someurl.com
,并将其与
域:someurl.com
进行比较。所以韦恩应该给我足够的钱让我开始。谢谢如果您的拒绝字符串始终为domain:url.com,您还可以通过将If语句修改为“If-domain[7:]in-url:”来删除“domain:”部分