Machine learning 当真正的积极因素很少时_Machine Learning

Machine learning 当真正的积极因素很少时

machine-learning

Machine learning 当真正的积极因素很少时,machine-learning,Machine Learning,假设您正试图使用机器学习进行分类任务，比如，查看动物照片，区分马和斑马。这项任务似乎是最先进的但是，如果你拍了一堆带标签的照片，然后把它们扔向神经网络或支持向量机之类的东西，实际情况是斑马比马稀少得多，以至于系统最终只能学会说“永远是马”，因为这实际上是减少误差的方法这可能是最小的错误，但也不是一个非常有用的结果。建议用什么方式告诉系统‘我想最好地猜测哪些照片是斑马，即使这确实会造成一些误报’？关于这个问题似乎没有太多的讨论。对于不平衡的类（或扭曲的数据集），我通常做的一件事就是生成更多的数

假设您正试图使用机器学习进行分类任务，比如，查看动物照片，区分马和斑马。这项任务似乎是最先进的

但是，如果你拍了一堆带标签的照片，然后把它们扔向神经网络或支持向量机之类的东西，实际情况是斑马比马稀少得多，以至于系统最终只能学会说“永远是马”，因为这实际上是减少误差的方法

这可能是最小的错误，但也不是一个非常有用的结果。建议用什么方式告诉系统‘我想最好地猜测哪些照片是斑马，即使这确实会造成一些误报’？关于这个问题似乎没有太多的讨论。

对于不平衡的类（或扭曲的数据集），我通常做的一件事就是生成更多的数据。我认为这是最好的办法。你可以到现实世界中去收集更多不平衡阶层的数据（例如，找到更多斑马的照片）。您还可以通过简单地制作副本或通过转换（例如水平翻转）复制数据来生成更多数据

您还可以选择一个分类器，该分类器使用一个替代的评估（性能）指标，而不是通常使用的-准确性。查看精度/召回率/F1分数

Andrew Ng的ML课程第6周讨论了以下主题：

这里是我在处理不平衡类方面发现的另一个很好的网页：

我通常对不平衡类（或扭曲数据集）所做的一件事就是生成更多数据。我认为这是最好的办法。你可以到现实世界中去收集更多不平衡阶层的数据（例如，找到更多斑马的照片）。您还可以通过简单地制作副本或通过转换（例如水平翻转）复制数据来生成更多数据

您还可以选择一个分类器，该分类器使用一个替代的评估（性能）指标，而不是通常使用的-准确性。查看精度/召回率/F1分数

Andrew Ng的ML课程第6周讨论了以下主题：

这是我在处理不平衡类方面发现的另一个很好的网页：

对于这种类型的不平衡数据问题，学习与每个类相关的模式是一种很好的方法，而不是简单地比较类-这可以通过无监督学习先完成（例如使用自动编码器）。这是一篇很好的文章。另一个建议-在运行分类器后，可以使用混淆矩阵来确定在这种类型的不平衡数据问题下，应在何处寻找额外的数据（即许多斑马错误）

，这是一种学习与每个类相关的模式的好方法，而不是简单地比较类-这可以通过无监督学习（例如使用自动编码器）首先完成。这是一篇很好的文章。另一个建议-在运行分类器后，可以使用混淆矩阵来确定应在何处获取额外数据（即许多斑马错误）

就在我的脑海中，您能否在斑马比例人为较高的数据集上训练模型，然后用它在实际照片中找到斑马，它们很罕见？另外，我想说的是，你可能会在Stack Overflow的姐妹网站“交叉验证”上得到更好的回答（或找到类似的问题）。就在我脑子里，你能不能在一个数据集上训练一个模型，其中斑马的比例人为地高，然后用它在实际照片中找到斑马，而斑马很少？另外，我想提一提的是，你可能会在Stack Overflow的姐妹网站“交叉验证”上得到更好的回答（或者找到一个类似的问题）。