Computer science 最佳更新频率_Computer Science_Data Mining

Computer science 最佳更新频率

computer-science

Computer science 最佳更新频率,computer-science,data-mining,Computer Science,Data Mining,我有一个经常执行数据挖掘操作的数据集。我想根据数据更新的频率来确定执行数据挖掘操作的频率。在数据更新频率的基础上，是否有任何公式可以为我提供最佳挖掘频率？如果不是的话，我想得到我自己的，我会怎么做呢？如果我想包含更多的变量呢？我只需要一些参考资料，如果有的话。谢谢。这不是一个真正的CS问题，尽管听起来像是一个问题（除非是家庭作业问题……我假设你有一个真实世界的问题要解决）。我假设，如果您是“数据挖掘”，那么您所做的不仅仅是针对实时OLTP数据库运行查询（例如在单独的系统上设置多维数据集）。这将归

我有一个经常执行数据挖掘操作的数据集。我想根据数据更新的频率来确定执行数据挖掘操作的频率。在数据更新频率的基础上，是否有任何公式可以为我提供最佳挖掘频率？如果不是的话，我想得到我自己的，我会怎么做呢？如果我想包含更多的变量呢？我只需要一些参考资料，如果有的话。谢谢。

这不是一个真正的CS问题，尽管听起来像是一个问题（除非是家庭作业问题……我假设你有一个真实世界的问题要解决）。我假设，如果您是“数据挖掘”，那么您所做的不仅仅是针对实时OLTP数据库运行查询（例如在单独的系统上设置多维数据集）。这将归结为用户问题。答案将取决于：

您正在捕获的数据中的模式（是周期性的，即每小时/每天/每周）。更新频率超过一个周期一次可能是没有用的。类似地，如果它是基于事件的，并且事件没有持续发生，那么更新挖掘系统的频率比更新传入事件的频率更高将是无用的
您是否可以收集数据以将其转换为数据挖掘设置，而不会使编写原始数据的用户或系统陷入困境？如果不是，则需要在系统负载较低时执行此操作。如果您正在分析日志，或使用自动复制（即oracle流），您可能不受此限制
进行数据挖掘的人员/流程何时可以停止并接受新的数据集。。。你不能只是从正在进行的工作中拿出地毯，替换他们正在处理的数据

答案可能不是您可以“派生”的东西。它将来自两端用户（自动或人工）的约束。

不知道您的数据是什么样的，或者您的需求是什么- 通常我们挖掘数据来

在数据中查找模式

创建一个模型，根据我们（过去）的数据做出未来决策

您只需要在以下情况下进一步挖掘数据：

您已经收集了足够的“新”数据，可以找到新的模式

你已经收集了足够多的“新”数据，以至于你的模型不再预测新现象

您已经开发了一种新技术，或者以某种方式修改了数据，以便再次执行数据挖掘是有意义的

一些盲目的猜测：

每次您收集的新数据占当前数据集的5%时，我都会执行此操作，即，如果您有10 GB，则在收集.5 GB后执行此操作（假设这是可行的！（少于一天））

如果你没有收集如此规模的新数据，每周运行一次操作应该相对便宜，而且肯定会让你心情舒畅

如果您以每天千兆字节或更高的速度收集数据，那么瓶颈就是操作成本。根据你的判断，如果手术需要一天以上，可能一个月一次。在这样的规模下，运营本身将开始在计算能力方面花费资金，公司应该雇佣一名专家

至于公式，没有，但我会让你参考维基百科上的文章。

谢谢你的回答。你的观点很好。是的，数据挖掘不会影响使用系统的用户，所以这是可以的。谢谢你的回答。谢谢你的回复。这很有帮助。我一直有点担心使用统计显著性，因为它并不能真正告诉我们任何事情。但我很感激你的回答。也许你误解了你的意图。几乎可以肯定，统计显著性是任何数据挖掘alg寻找模式的必要条件。在我们的上下文中，我们希望至少有5%的数据子集显示任何“模式”。例如，假设您有一个10GB的动物数据集，其中包含1MB的cat数据。我们收集了.5 GB的新数据，但没有新的cat数据，请执行此操作。但是如果我们收集了50MB的新数据，但恰好都是cat数据，那么一定要进行操作。因为这可能为您的CAT模型提供有统计学意义的数据。当然，这也是棘手的，因为您必须考虑所有可能的交叉点、子集和数据集的特征组合。您可能只有1%的新数据，但如果您碰巧知道它是有用的新数据，一定要执行此操作。明白吗？