Computer science 最佳更新频率

Computer science 最佳更新频率,computer-science,data-mining,Computer Science,Data Mining,我有一个经常执行数据挖掘操作的数据集。我想根据数据更新的频率来确定执行数据挖掘操作的频率。在数据更新频率的基础上,是否有任何公式可以为我提供最佳挖掘频率?如果不是的话,我想得到我自己的,我会怎么做呢?如果我想包含更多的变量呢?我只需要一些参考资料,如果有的话。谢谢。这不是一个真正的CS问题,尽管听起来像是一个问题(除非是家庭作业问题……我假设你有一个真实世界的问题要解决)。我假设,如果您是“数据挖掘”,那么您所做的不仅仅是针对实时OLTP数据库运行查询(例如在单独的系统上设置多维数据集)。这将归

我有一个经常执行数据挖掘操作的数据集。我想根据数据更新的频率来确定执行数据挖掘操作的频率。在数据更新频率的基础上,是否有任何公式可以为我提供最佳挖掘频率?如果不是的话,我想得到我自己的,我会怎么做呢?如果我想包含更多的变量呢?我只需要一些参考资料,如果有的话。谢谢。

这不是一个真正的CS问题,尽管听起来像是一个问题(除非是家庭作业问题……我假设你有一个真实世界的问题要解决)。我假设,如果您是“数据挖掘”,那么您所做的不仅仅是针对实时OLTP数据库运行查询(例如在单独的系统上设置多维数据集)。这将归结为用户问题。答案将取决于:

  • 您正在捕获的数据中的模式(是周期性的,即每小时/每天/每周)。更新频率超过一个周期一次可能是没有用的。类似地,如果它是基于事件的,并且事件没有持续发生,那么更新挖掘系统的频率比更新传入事件的频率更高将是无用的
  • 您是否可以收集数据以将其转换为数据挖掘设置,而不会使编写原始数据的用户或系统陷入困境?如果不是,则需要在系统负载较低时执行此操作。如果您正在分析日志,或使用自动复制(即oracle流),您可能不受此限制
  • 进行数据挖掘的人员/流程何时可以停止并接受新的数据集。。。你不能只是从正在进行的工作中拿出地毯,替换他们正在处理的数据

答案可能不是您可以“派生”的东西。它将来自两端用户(自动或人工)的约束。

不知道您的数据是什么样的,或者您的需求是什么- 通常我们挖掘数据来

  • 在数据中查找模式
  • 创建一个模型,根据我们(过去)的数据做出未来决策
  • 您只需要在以下情况下进一步挖掘数据:

  • 您已经收集了足够的“新”数据,可以找到新的模式
  • 你已经收集了足够多的“新”数据,以至于你的模型不再预测新现象
  • 您已经开发了一种新技术,或者以某种方式修改了数据,以便再次执行数据挖掘是有意义的
  • 一些盲目的猜测:

  • 每次您收集的新数据占当前数据集的5%时,我都会执行此操作,即,如果您有10 GB,则在收集.5 GB后执行此操作(假设这是可行的!(少于一天))
  • 如果你没有收集如此规模的新数据,每周运行一次操作应该相对便宜,而且肯定会让你心情舒畅
  • 如果您以每天千兆字节或更高的速度收集数据,那么瓶颈就是操作成本。根据你的判断,如果手术需要一天以上,可能一个月一次。在这样的规模下,运营本身将开始在计算能力方面花费资金,公司应该雇佣一名专家

  • 至于公式,没有,但我会让你参考维基百科上的文章。

    谢谢你的回答。你的观点很好。是的,数据挖掘不会影响使用系统的用户,所以这是可以的。谢谢你的回答。谢谢你的回复。这很有帮助。我一直有点担心使用统计显著性,因为它并不能真正告诉我们任何事情。但我很感激你的回答。也许你误解了你的意图。几乎可以肯定,统计显著性是任何数据挖掘alg寻找模式的必要条件。在我们的上下文中,我们希望至少有5%的数据子集显示任何“模式”。例如,假设您有一个10GB的动物数据集,其中包含1MB的cat数据。我们收集了.5 GB的新数据,但没有新的cat数据,请执行此操作。但是如果我们收集了50MB的新数据,但恰好都是cat数据,那么一定要进行操作。因为这可能为您的CAT模型提供有统计学意义的数据。当然,这也是棘手的,因为您必须考虑所有可能的交叉点、子集和数据集的特征组合。您可能只有1%的新数据,但如果您碰巧知道它是有用的新数据,一定要执行此操作。明白吗?