R 10倍交叉验证中两个随机向量之间的显著相关性

R 10倍交叉验证中两个随机向量之间的显著相关性,r,statistics,correlation,cross-validation,pearson,R,Statistics,Correlation,Cross Validation,Pearson,我生成两个随机向量,然后运行10倍,尝试使用另一个预测一个变量,然后计算实际值和预测值之间的相关性。据我所知,试图从随机变量中预测一个变量应该是不相关的,但在10倍上似乎是重要的,而在每个单一倍上则不是: X = data.frame(y = rnorm(1000), x = rnorm(1000), fold = rep(1:10, each = 10), predicted = NA) p_val = c() for (fold in 1:10) { X_train = X[which(

我生成两个随机向量,然后运行10倍,尝试使用另一个预测一个变量,然后计算实际值和预测值之间的相关性。据我所知,试图从随机变量中预测一个变量应该是不相关的,但在10倍上似乎是重要的,而在每个单一倍上则不是:

X = data.frame(y = rnorm(1000), x = rnorm(1000), fold = rep(1:10, each = 10), predicted = NA)
p_val = c()
for (fold in 1:10) {
  X_train = X[which(X$fold != fold),]
  X_test  = X[which(X$fold == fold),]
  prediction_model = coef(lm(y ~ x, X_train))
  X$predicted[which(X$fold == fold)] = prediction_model[1] + prediction_model[2] * X_test$x
  p_val=rbind(p_val, cor.test(X_test$y, X_test$x)$p.value)
}
p_val_10fold = cor.test(X$y, X$predicted)
cat('\nSeparate 10-fold:',p_val,'\n')
cat('Together 10-fold:',p_val_10fold$p.value,'\n')
为什么每个单次折叠的相关p值分别是不显著的,而当所有样本一起使用时,它是显著的?样本量似乎不是问题,因为即使在1000万样本量上也会出现同样的情况。获得的结果示例如下:

Separate 10-fold: 0.945942 0.575846 0.6427951 0.9434029 0.225132 0.811598 0.01552417 0.8120576 0.1043676 0.8656115 
Together 10-fold: 0.0001115764 
我感谢任何关于我错在哪里的想法、评论或提示。多谢各位