Statistics 如何找到数据之间的相关性和关系

Statistics 如何找到数据之间的相关性和关系,statistics,frequency,correlation,pearson-correlation,Statistics,Frequency,Correlation,Pearson Correlation,我正在用特定的API(直播API)收集关于当前正在发生的特定事件的数据(文本)。我接收的数据基于我传递给API的默认关键字列表。API还收集除了我的默认关键字之外的文本中出现的关键字,然后将它们添加到我的默认列表中,这样API也可以搜索带有这些关键字的数据。这就是问题所在,因为一些新添加的关键字与事件无关。我不想将数据搜索限制在默认列表上,因为我无法涵盖文本中使用的所有关键字 到目前为止,我的解决方案是尝试对每1000个接收到的数据执行点双列相关系数,但我不确定这是否是正确的方法以及如何执行 如

我正在用特定的API(直播API)收集关于当前正在发生的特定事件的数据(文本)。我接收的数据基于我传递给API的默认关键字列表。API还收集除了我的默认关键字之外的文本中出现的关键字,然后将它们添加到我的默认列表中,这样API也可以搜索带有这些关键字的数据。这就是问题所在,因为一些新添加的关键字与事件无关。我不想将数据搜索限制在默认列表上,因为我无法涵盖文本中使用的所有关键字

到目前为止,我的解决方案是尝试对每1000个接收到的数据执行点双列相关系数,但我不确定这是否是正确的方法以及如何执行


如果有人能就如何解决这个问题给我一个建议或任何解决方案,我将不胜感激。

您可以使用术语共现来处理关键字收集,这将为您的默认列表提供更好的相关性。是一个示例,但您可以显著改进算法。

您可以使用术语共现来处理关键字集合,这将为您的默认列表提供更好的相关性。这是一个例子,但您可以显著改进算法。

非常感谢您,这正是我要找的!非常感谢,这正是我想要的!