R 性能差箭头拼花地板多个文件_R_Parquet_Apache Arrow

R 性能差箭头拼花地板多个文件

R 性能差箭头拼花地板多个文件,r,parquet,apache-arrow,R,Parquet,Apache Arrow,在观看了Rstudio会议上令人兴奋的网络研讨会后，我感到非常兴奋，以至于将整个SQL server表转储到拼花文件中。结果是2886个文件（37个月内有78个实体），总共约7亿行。在不到15秒内，执行基本选择返回所有行！（这是一个超乎寻常的结果！！）在网络研讨会上，Ursa实验室的Neal Richardson展示了4秒钟内20亿行的纽约出租车数据集我觉得是时候做一些更大胆的事情了，比如基本平均值，sd，一年的数据模式，但是每个月需要一分钟，所以我坐着12.4分钟等待R的回复问题是什

在观看了Rstudio会议上令人兴奋的网络研讨会后，我感到非常兴奋，以至于将整个SQL server表转储到拼花文件中。结果是2886个文件（37个月内有78个实体），总共约7亿行。

在不到15秒内，执行基本选择返回所有行！（这是一个超乎寻常的结果！！）在网络研讨会上，Ursa实验室的Neal Richardson展示了4秒钟内20亿行的纽约出租车数据集

我觉得是时候做一些更大胆的事情了，比如基本平均值，sd，一年的数据模式，但是每个月需要一分钟，所以我坐着12.4分钟等待R的回复

问题是什么？我写得很糟糕的R查询？或者仅仅是太多的文件或粒度（Kontobelop中的十进制值）

有什么想法吗

PS：我不想在apache arrow board中放置Jira案例，因为我看到google search无法从中检索答案。

我的猜测（没有实际查看数据或分析查询）是两件事：

您是对的，decimal类型在转换为R类型时需要做一些工作，因为R没有decimal类型，所以这比只读取int32或float64类型要慢

您仍在向R会话读取约3.5亿行数据，这需要一些时间。在arrow包vignette的示例查询中，过滤掉了更多的数据（而且过滤速度非常快）