R 性能差箭头拼花地板多个文件
在观看了Rstudio会议上令人兴奋的网络研讨会后,我感到非常兴奋,以至于将整个SQL server表转储到拼花文件中。结果是2886个文件(37个月内有78个实体),总共约7亿行。 在不到15秒内,执行基本选择返回所有行!(这是一个超乎寻常的结果!!)在网络研讨会上,Ursa实验室的Neal Richardson展示了4秒钟内20亿行的纽约出租车数据集 我觉得是时候做一些更大胆的事情了,比如基本平均值,sd,一年的数据模式,但是每个月需要一分钟,所以我坐着12.4分钟等待R的回复 问题是什么?我写得很糟糕的R查询?或者仅仅是太多的文件或粒度(Kontobelop中的十进制值) 有什么想法吗 PS:我不想在apache arrow board中放置Jira案例,因为我看到google search无法从中检索答案。我的猜测(没有实际查看数据或分析查询)是两件事:R 性能差箭头拼花地板多个文件,r,parquet,apache-arrow,R,Parquet,Apache Arrow,在观看了Rstudio会议上令人兴奋的网络研讨会后,我感到非常兴奋,以至于将整个SQL server表转储到拼花文件中。结果是2886个文件(37个月内有78个实体),总共约7亿行。 在不到15秒内,执行基本选择返回所有行!(这是一个超乎寻常的结果!!)在网络研讨会上,Ursa实验室的Neal Richardson展示了4秒钟内20亿行的纽约出租车数据集 我觉得是时候做一些更大胆的事情了,比如基本平均值,sd,一年的数据模式,但是每个月需要一分钟,所以我坐着12.4分钟等待R的回复 问题是什