比较Python dict与包含的浮点值_Python

比较Python dict与包含的浮点值

python

比较Python dict与包含的浮点值,python,Python,我想比较一对字典并使用“fuzzy”浮点比较，或者更好地使用numpy.allclose（）。但是，使用默认的==或=不能做到这一点我想知道是否有办法更改浮点比较操作（可能使用上下文管理器进行安全清理）我相信举个例子会有所帮助。我有一个嵌套很深的dict，它包含各种各样的值。其中一些值是浮点值。我知道“比较”浮点值等有很多陷阱 d1 = {'a': {'b': 1.123456}} d2 = {'a': {'b': 1.1234578}} 我想使用=比较这两个dict，如果唯一的差异是某个

我想比较一对字典并使用“fuzzy”浮点比较，或者更好地使用

numpy.allclose（）。但是，使用默认的==
或=不能做到这一点
我想知道是否有办法更改浮点比较操作（可能使用上下文管理器进行安全清理）
我相信举个例子会有所帮助。我有一个嵌套很深的dict，它包含各种各样的值。其中一些值是浮点值。我知道“比较”浮点值等有很多陷阱
d1 = {'a': {'b': 1.123456}}
d2 = {'a': {'b': 1.1234578}}

我想使用=
比较这两个dict，如果唯一的差异是某个范围内的浮点数，则返回True
。例如，如果值接近（还不确定我想要的精度），则不要计算不同的值
我想我可以自己递归地检查dicts，手动使用numpy.allclose（）
进行浮点值测试，然后返回到所有其他类型的正常相等性测试，等等。但是，这有点棘手，而且容易出错。我确实认为这是一个可以接受的解决方案，我希望看到一个这样的解决方案。希望有更优雅的东西
我脑海中优雅的解决方案如下所示。然而，我不知道这样的事情是否可能：
with hacked_float_compare:
    result = d1 != d2

因此，在这个上下文管理器中，我将用我自己的比较或numpy.allclose（）
替换浮点比较（仅用于标准的float（）
值）
同样，我不确定这是否可行，因为猴子补丁float（）
实际上无法完成，因为它是用C
编写的。我还希望避免不得不将dicts中的每个浮点值都更改为我自己的float类，该类具有\uuuueq\uuuuo（）
。也许这是最好的方法？
要覆盖比较运算符，您需要定义一个使用不同运算符的派生类。因此，您不能按照建议的方式进行操作。您可以做的是派生一个“模糊浮点”类（如@Null）建议，或从dict
派生和分类，并指定它在浮点上使用模糊比较：
class fuzzydict(dict):
    def __eq__(self, other):
        """Manually compare each element of `self` with `other`.
           Float values are compared up to reasonable precision."""

你必须自己翻阅字典比较的逻辑，它可能不会像内置比较那样快，但你可以在代码中写入dict1==dict2
。只要确保对所有可能包含浮点的（嵌套）字典使用fuzzydict
，而不是dict

然而，我应该补充一点，你正在冒着不确定性的风险：你的字典会比较相等，但包含的数字略有不同，因此，根据你使用的字典，后续计算可能会得出不相等的结果。在我看来，更安全（更理智）方法是在字典中插入浮点数时将它们四舍五入，以便它们严格相等。
避免对内置类型进行子类化。当您发现您的对象由于未知原因更改了类型时，您会后悔。请改用委派。例如：
import operator as op


class FuzzyDict(object):
    def __init__(self, iterable=(), float_eq=op.eq):
        self._float_eq = float_eq
        self._dict = dict(iterable)

    def __getitem__(self, key):
        return self._dict[key]

    def __setitem__(self, key, val):
        self._dict[key] = val

    def __iter__(self):
        return iter(self._dict)

    def __len__(self):
        return len(self._dict)

    def __contains__(self, key):
        return key in self._dict

    def __eq__(self, other):
        def compare(a, b):
            if isinstance(a, float) and isinstance(b, float):
                return self._float_eq(a, b)
            else:
                return a == b
        try:
            if len(self) != len(other):
                return False
            for key in self:
                if not compare(self[key], other[key]):
                    return False
            return True
        except Exception:
            return False

    def __getattr__(self, attr):
        # free features borrowed from dict
        attr_val = getattr(self._dict, attr)
        if callable(attr_val):
            def wrapper(*args, **kwargs):
                result = attr_val(*args, **kwargs)
                if isinstance(result, dict):
                    return FuzzyDict(result, self._float_eq)
                return result
            return wrapper
        return attr_val

以及一个示例用法：
>>> def float_eq(a, b):
...     return abs(a - b) < 0.01
... 
>>> A = FuzzyDict(float_eq=float_eq)
>>> B = FuzzyDict(float_eq=float_eq)
>>> A['a'] = 2.345
>>> A['b'] = 'a string'
>>> B['a'] = 2.345
>>> B['b'] = 'a string'
>>> B['a'] = 2.3445
>>> A == B
True
>>> B['a'] = 234.55
>>> A == B
False
>>> B['a'] = 2.345
>>> B['b'] = 'a strin'
>>> A == B
False

完全替换dict
需要更多的代码，可能还需要一些测试来了解它的健壮性，但即使是上述解决方案也提供了许多dict
功能（例如copy
，setdefault
，get
，update
等）

关于为什么不应该将内置的子类化
这个解决方案似乎简单而正确，但通常不是。
首先，即使您可以对内置类型进行子类化，但这并不意味着它们是作为子类来编写的，因此您可能会发现，要使某些东西正常工作，您必须编写比您想象的更多的代码
此外，您可能希望使用内置方法，但这些方法将返回内置类型的实例，而不是类的实例，这意味着您必须重新实现该类型的每个方法。此外，有时还必须实现内置类型中未实现的其他方法
例如，子类化list
您可能会认为，由于list
只实现\uuud\uud\uud
和\uud\uud\uud
您可以安全地重新实现这两种方法，但您错了！您还必须实现\uradd\uud\uud
，否则表达式如下：
[1,2,3] + MyList([1,2,3])

将返回一个正常的列表
，而不是MyList

总之，子类化内置的后果比您一开始想象的要严重得多，而且由于类型或行为的更改，它可能会引入一些不可预测的错误，这是您没有预料到的。调试也变得更加困难，因为您不能简单地在日志中打印对象的实例，因此表示将是正确的t！您确实必须检查周围所有对象的类，以捕获这些微妙的bug
在您的特定情况下，如果您计划只在单个方法中转换字典，那么您可以避免子类化dict
的大多数缺点，但是在这一点上，为什么不简单地编写一个函数并将dict与之进行比较呢？
这应该可以很好地工作，除非您想将dict传递给进行比较的库函数。
仅供参考，我认为在我的情况下，子类化不是最好的方法。我已经制定了一个最有可能使用的解决方案
这不是公认的答案，因为这是一种基于我从这个线程中学到的协作方法。只是想要一个其他人可以从中受益的“解决方案”。
一个选项是为float创建一个包装器，并覆盖那里的\uuuuuueq\uuuu
。但是您需要使用fuzz创建所有的float
[1,2,3] + MyList([1,2,3])