Machine learning 当真正的积极因素很少时

Machine learning 当真正的积极因素很少时,machine-learning,Machine Learning,假设您正试图使用机器学习进行分类任务,比如,查看动物照片,区分马和斑马。这项任务似乎是最先进的 但是,如果你拍了一堆带标签的照片,然后把它们扔向神经网络或支持向量机之类的东西,实际情况是斑马比马稀少得多,以至于系统最终只能学会说“永远是马”,因为这实际上是减少误差的方法 这可能是最小的错误,但也不是一个非常有用的结果。建议用什么方式告诉系统‘我想最好地猜测哪些照片是斑马,即使这确实会造成一些误报’?关于这个问题似乎没有太多的讨论。对于不平衡的类(或扭曲的数据集),我通常做的一件事就是生成更多的数

假设您正试图使用机器学习进行分类任务,比如,查看动物照片,区分马和斑马。这项任务似乎是最先进的

但是,如果你拍了一堆带标签的照片,然后把它们扔向神经网络或支持向量机之类的东西,实际情况是斑马比马稀少得多,以至于系统最终只能学会说“永远是马”,因为这实际上是减少误差的方法


这可能是最小的错误,但也不是一个非常有用的结果。建议用什么方式告诉系统‘我想最好地猜测哪些照片是斑马,即使这确实会造成一些误报’?关于这个问题似乎没有太多的讨论。

对于不平衡的类(或扭曲的数据集),我通常做的一件事就是生成更多的数据。我认为这是最好的办法。你可以到现实世界中去收集更多不平衡阶层的数据(例如,找到更多斑马的照片)。您还可以通过简单地制作副本或通过转换(例如水平翻转)复制数据来生成更多数据

您还可以选择一个分类器,该分类器使用一个替代的评估(性能)指标,而不是通常使用的-准确性。查看精度/召回率/F1分数

Andrew Ng的ML课程第6周讨论了以下主题:


这里是我在处理不平衡类方面发现的另一个很好的网页:

我通常对不平衡类(或扭曲数据集)所做的一件事就是生成更多数据。我认为这是最好的办法。你可以到现实世界中去收集更多不平衡阶层的数据(例如,找到更多斑马的照片)。您还可以通过简单地制作副本或通过转换(例如水平翻转)复制数据来生成更多数据

您还可以选择一个分类器,该分类器使用一个替代的评估(性能)指标,而不是通常使用的-准确性。查看精度/召回率/F1分数

Andrew Ng的ML课程第6周讨论了以下主题:


这是我在处理不平衡类方面发现的另一个很好的网页:

对于这种类型的不平衡数据问题,学习与每个类相关的模式是一种很好的方法,而不是简单地比较类-这可以通过无监督学习先完成(例如使用自动编码器)。这是一篇很好的文章。另一个建议-在运行分类器后,可以使用混淆矩阵来确定在这种类型的不平衡数据问题下,应在何处寻找额外的数据(即许多斑马错误)

,这是一种学习与每个类相关的模式的好方法,而不是简单地比较类-这可以通过无监督学习(例如使用自动编码器)首先完成。这是一篇很好的文章。另一个建议-在运行分类器后,可以使用混淆矩阵来确定应在何处获取额外数据(即许多斑马错误)

就在我的脑海中,您能否在斑马比例人为较高的数据集上训练模型,然后用它在实际照片中找到斑马,它们很罕见?另外,我想说的是,你可能会在Stack Overflow的姐妹网站“交叉验证”上得到更好的回答(或找到类似的问题)。就在我脑子里,你能不能在一个数据集上训练一个模型,其中斑马的比例人为地高,然后用它在实际照片中找到斑马,而斑马很少?另外,我想提一提的是,你可能会在Stack Overflow的姐妹网站“交叉验证”上得到更好的回答(或者找到一个类似的问题)。