Database 小型数据集的数据挖掘

Database 小型数据集的数据挖掘,database,methods,data-mining,Database,Methods,Data Mining,我是数据挖掘方面的新手。据我所知,大多数技术都是用于大型数据集的,但我很想知道这是必须的,还是仅仅是一般规则。换句话说,在小数据集中使用数据挖掘技术可以吗?大多数示例在小表格中工作,但是否存在任何限制?为什么?大多数数据挖掘技术都是统计方法 要获得重要的模式,您需要足够的数据。否则,由于偶然性,任何度量都可能是随机偏差。你拥有的数据越多,你的模式就越好 但大多数数据并不是“大数据”意义上的“大”:许多方法无法扩展到真正的大数据集。在大多数情况下,您只有几千(不是几EB)的数据;特别是在将数据预处

我是数据挖掘方面的新手。据我所知,大多数技术都是用于大型数据集的,但我很想知道这是必须的,还是仅仅是一般规则。换句话说,在小数据集中使用数据挖掘技术可以吗?大多数示例在小表格中工作,但是否存在任何限制?为什么?

大多数数据挖掘技术都是统计方法

要获得重要的模式,您需要足够的数据。否则,由于偶然性,任何度量都可能是随机偏差。你拥有的数据越多,你的模式就越好

但大多数数据并不是“大数据”意义上的“大”:许多方法无法扩展到真正的大数据集。在大多数情况下,您只有几千(不是几EB)的数据;特别是在将数据预处理为所需格式后

我知道大多数技术都是用于大数据的 设置,但我很好奇,这是必须的还是仅仅是一般的 规则

在小数据集上使用数据挖掘技术并不是“违反规则”,因为数据集的大小没有规则。然而,这个建议来自效率和准确性

让我们假设您正在开发一个预测引擎,为了让您了解所有用例,您需要制定一组特定的规则。现在数据,好的,你正在建立你的预测模型,因此,你把数据分成两组,第一组是你的训练集,另一组是你的测试集

您的数据集用于接受信用卡申请,您可以检查信用历史、年龄、收入和其他10个因素!然后是历史上批准或拒绝的结果


对于上一个问题,您有一组1000行,您使用800行对系统进行了培训,并使用200行进行了测试。你的模特儿最喜欢什么。不管它是什么,它都不是真的,因为在地球上没有办法覆盖所有用例,因此,数据越大,挖掘模型就越好

这取决于你想解决的问题。数据挖掘领域非常大,但在机器学习技术的背景下,拥有一个“好”的数据集是极其重要的。在机器学习中,由于训练数据量不足以推广到其他新观测值,冷启动可能会导致创建鲁棒性较差的模型(即算法通过训练学习的隐式规则)

除了数据的数量,还存在质量问题。如果您的数据不平衡、不正确或与问题解决无关(就功能相关性而言),则数据集大小无关紧要(或者无论如何都需要大量数据清理和规范化)


因此,数据量是一个问题,尤其是当与数据质量问题相结合时。通常,它们之间是平衡的,因为生成高质量的数据需要成本。您可以阅读更多内容

您可以使用小型数据集。例如,昆兰在他的实验中使用了PlayGolf数据集,只有14个例子。但在这种情况下,您需要创建或使用能够正确反映您的实验的小型数据集

还有一点小数据集无法验证您的结果。要验证学习算法或训练模型,您需要足够的数据。你拥有的数据越多,你的模型就越准确