Machine learning 有偏初始数据集主动学习_Machine Learning_Statistics

Machine learning 有偏初始数据集主动学习

machine-learning statistics

Machine learning 有偏初始数据集主动学习,machine-learning,statistics,Machine Learning,Statistics,选择有偏差的初始（种子）数据集是否会影响使用主动学习构建的机器的训练和准确性？可能会。假设一个种子数据样本存在严重偏差，并且模型并没有看到任何特定集群的示例。然后，在进行预测时，模型可能会将它们预测为属于其他类别，并以高度确定的方式进行预测（即，它已经有了很大的偏差）。因此，它不会觉得有必要查询此类数据实例的标签，也不会了解它们。但当我们稍后用真实的标签测试模型的结果时，它会显示出低精度，因为这些预测实际上是错误的话虽如此，我们也可能不希望种子数据集中的训练数据分布“完全一致”，因为如果我们有

选择有偏差的初始（种子）数据集是否会影响使用主动学习构建的机器的训练和准确性？

可能会。假设一个种子数据样本存在严重偏差，并且模型并没有看到任何特定集群的示例。然后，在进行预测时，模型可能会将它们预测为属于其他类别，并以高度确定的方式进行预测（即，它已经有了很大的偏差）。因此，它不会觉得有必要查询此类数据实例的标签，也不会了解它们。但当我们稍后用真实的标签测试模型的结果时，它会显示出低精度，因为这些预测实际上是错误的

话虽如此，我们也可能不希望种子数据集中的训练数据分布“完全一致”，因为如果我们有大量的离群值或人为错误造成的错误标签，或严重倾斜但不太可能出现的数据簇，这将妨碍模型的建立

一种解决方案可以是“主动清理”此类实例，或者，我们可以允许种子数据具有一定数量的有意偏差（可能是高密度集群或有影响力的标签或集合分歧或模型的不确定性）。然后，我们确保在基于模型结果的进一步决策过程中考虑模型中引入的偏差