R 处理时间预测

R 处理时间预测,r,data-visualization,prediction,R,Data Visualization,Prediction,我正在处理大量的数据。我对一些固定数量的记录(100万、1000万和1亿)进行了几次测试,并测量了执行时间(1)。因此,我有以下带有结果的CSV(列如下:记录数、额外处理、运行时间、用户时间、系统时间): 例如,我如何预测处理十亿条记录的时间?我将使用R来实现数据的可视化。使用您当前的数据,没有什么可预测的。虽然您有很多观察结果,但它们只收集了3个独特的问题大小:100万、1000万和1亿 绘制时,您的数据为: 我们需要一个回归模型来进行预测。但有了这些数据,就不可能可靠地做到这一点。您需要收

我正在处理大量的数据。我对一些固定数量的记录(100万、1000万和1亿)进行了几次测试,并测量了执行时间(1)。因此,我有以下带有结果的CSV(列如下:记录数、额外处理、运行时间、用户时间、系统时间):


例如,我如何预测处理十亿条记录的时间?我将使用R来实现数据的可视化。

使用您当前的数据,没有什么可预测的。虽然您有很多观察结果,但它们只收集了3个独特的问题大小:100万、1000万和1亿

绘制时,您的数据为:


我们需要一个回归模型来进行预测。但有了这些数据,就不可能可靠地做到这一点。您需要收集更多问题大小的数据,如1、2、3、4、5、991亿。对于每种尺寸,收集有/无额外处理的数据。只有这样,我们才能估计处理时间如何随着问题的大小而增长。例如,它是线性增长还是二次增长?

@Zheyunali:“在多处理器机器上,多线程进程或进程分叉子进程的运行时间可能小于CPU总时间,因为不同的线程或进程可能并行运行。”@Zheyunali哦,我不认为这很重要。但是,如果它确实是我在使用中进行数据处理的话,那么这个问题属于stats.stackexchange.com。但是,当我收集更多数据时,我如何才能做出预测呢?对不起,我在数据科学/R方面的经验很差。正如ZheyuanLi所建议的,您需要在x上定期采集样本。首先,您需要确定分辨率。您应该每100个数据点、每百万分之一或最多10个数据点采样一次吗?一旦计算出采样率,就需要计算出模型。首先,对散点图进行目视检查。其次,尝试将适当的模型拟合到曲线。此时,您将在@ZheyuanLi获得更多相关帮助。好的,我将更新我的测试运行脚本以收集更多数据。你说我的数据设计得不好。你这是什么意思?它缺少1,2,3,4,5…,99,1亿条记录的数据,正如你在回答中提到的,或者还有其他的吗?好的,谢谢大家!我将接受这个答案,收集更多的数据,然后问一个问题。@ZheyuanLi我做了更多的测试,在这里重新问了我的问题
1000000,false,4.29,13.62,0.48
1000000,true,8.78,28.28,0.89
10000000,false,69.17,229.20,8.26
10000000,true,106.89,343.34,11.78
100000000,false,1053.46,3058.38,126.66
100000000,true,1255.68,4011.54,143.87
1000000,false,8.40,27.86,1.01
1000000,true,12.59,40.75,1.44
10000000,false,92.84,309.81,10.85
10000000,true,125.52,410.81,14.06
100000000,false,963.49,2935.52,116.03
100000000,true,1435.18,4238.75,154.30
1000000,false,9.12,29.94,1.14
1000000,true,12.90,42.21,1.48
10000000,false,96.32,321.50,11.65
10000000,true,122.68,400.36,13.92
100000000,false,872.66,2876.10,109.40
100000000,true,1170.53,3771.05,131.80
1000000,false,11.07,36.70,1.28
1000000,true,13.21,43.15,1.44
10000000,false,94.08,312.17,11.42
10000000,true,126.83,411.92,14.10
100000000,false,870.20,2861.60,109.60
100000000,true,1138.72,3692.30,127.56
1000000,false,8.60,28.48,1.04
1000000,true,13.14,42.88,1.48
10000000,false,87.76,290.91,10.50
10000000,true,118.03,382.60,12.80
100000000,false,858.91,2822.96,106.71
100000000,true,1190.48,3857.58,133.79
1000000,false,8.91,29.59,1.00
1000000,true,12.91,42.01,1.55
10000000,false,89.62,296.94,11.00
10000000,true,116.50,378.21,12.77
100000000,false,870.43,2858.22,109.46
100000000,true,1126.05,3641.41,127.34
1000000,false,9.46,31.40,1.20
1000000,true,11.12,36.28,1.17
10000000,false,87.26,289.12,10.78
10000000,true,115.46,372.48,12.70
100000000,false,1044.48,3029.55,121.52
100000000,true,1393.75,4083.24,147.38
1000000,false,9.75,30.62,1.24
1000000,true,14.79,45.33,1.52
10000000,false,99.32,317.52,12.20
10000000,true,150.65,428.98,16.02
100000000,false,916.92,2979.20,115.72
100000000,true,1119.58,3619.34,126.22
1000000,false,8.85,29.42,1.04
1000000,true,12.47,40.42,1.40
10000000,false,94.12,312.18,11.27
10000000,true,121.16,393.87,13.56
100000000,false,884.21,2898.08,110.16
100000000,true,1131.85,3655.16,128.92
1000000,false,8.86,29.51,1.08
1000000,true,12.32,40.12,1.21
10000000,false,89.75,298.62,10.80
10000000,true,114.46,371.82,12.69
100000000,false,868.67,2842.56,109.55
100000000,true,1139.24,3680.05,127.93