R 10倍交叉验证中两个随机向量之间的显著相关性_R_Statistics_Correlation_Cross Validation_Pearson

R 10倍交叉验证中两个随机向量之间的显著相关性

r statistics

R 10倍交叉验证中两个随机向量之间的显著相关性,r,statistics,correlation,cross-validation,pearson,R,Statistics,Correlation,Cross Validation,Pearson,我生成两个随机向量，然后运行10倍，尝试使用另一个预测一个变量，然后计算实际值和预测值之间的相关性。据我所知，试图从随机变量中预测一个变量应该是不相关的，但在10倍上似乎是重要的，而在每个单一倍上则不是： X = data.frame(y = rnorm(1000), x = rnorm(1000), fold = rep(1:10, each = 10), predicted = NA) p_val = c() for (fold in 1:10) { X_train = X[which(

我生成两个随机向量，然后运行10倍，尝试使用另一个预测一个变量，然后计算实际值和预测值之间的相关性。据我所知，试图从随机变量中预测一个变量应该是不相关的，但在10倍上似乎是重要的，而在每个单一倍上则不是：

X = data.frame(y = rnorm(1000), x = rnorm(1000), fold = rep(1:10, each = 10), predicted = NA)
p_val = c()
for (fold in 1:10) {
  X_train = X[which(X$fold != fold),]
  X_test  = X[which(X$fold == fold),]
  prediction_model = coef(lm(y ~ x, X_train))
  X$predicted[which(X$fold == fold)] = prediction_model[1] + prediction_model[2] * X_test$x
  p_val=rbind(p_val, cor.test(X_test$y, X_test$x)$p.value)
}
p_val_10fold = cor.test(X$y, X$predicted)
cat('\nSeparate 10-fold:',p_val,'\n')
cat('Together 10-fold:',p_val_10fold$p.value,'\n')

为什么每个单次折叠的相关p值分别是不显著的，而当所有样本一起使用时，它是显著的？样本量似乎不是问题，因为即使在1000万样本量上也会出现同样的情况。获得的结果示例如下：

Separate 10-fold: 0.945942 0.575846 0.6427951 0.9434029 0.225132 0.811598 0.01552417 0.8120576 0.1043676 0.8656115 
Together 10-fold: 0.0001115764

我感谢任何关于我错在哪里的想法、评论或提示。多谢各位