R 性能差箭头拼花地板多个文件

R 性能差箭头拼花地板多个文件,r,parquet,apache-arrow,R,Parquet,Apache Arrow,在观看了Rstudio会议上令人兴奋的网络研讨会后,我感到非常兴奋,以至于将整个SQL server表转储到拼花文件中。结果是2886个文件(37个月内有78个实体),总共约7亿行。 在不到15秒内,执行基本选择返回所有行!(这是一个超乎寻常的结果!!)在网络研讨会上,Ursa实验室的Neal Richardson展示了4秒钟内20亿行的纽约出租车数据集 我觉得是时候做一些更大胆的事情了,比如基本平均值,sd,一年的数据模式,但是每个月需要一分钟,所以我坐着12.4分钟等待R的回复 问题是什

在观看了Rstudio会议上令人兴奋的网络研讨会后,我感到非常兴奋,以至于将整个SQL server表转储到拼花文件中。结果是2886个文件(37个月内有78个实体),总共约7亿行。

在不到15秒内,执行基本选择返回所有行!(这是一个超乎寻常的结果!!)在网络研讨会上,Ursa实验室的Neal Richardson展示了4秒钟内20亿行的纽约出租车数据集

我觉得是时候做一些更大胆的事情了,比如基本平均值,sd,一年的数据模式,但是每个月需要一分钟,所以我坐着12.4分钟等待R的回复

问题是什么?我写得很糟糕的R查询?或者仅仅是太多的文件或粒度(Kontobelop中的十进制值)

有什么想法吗

PS:我不想在apache arrow board中放置Jira案例,因为我看到google search无法从中检索答案。

我的猜测(没有实际查看数据或分析查询)是两件事:

  • 您是对的,decimal类型在转换为R类型时需要做一些工作,因为R没有decimal类型,所以这比只读取int32或float64类型要慢
  • 您仍在向R会话读取约3.5亿行数据,这需要一些时间。在arrow包vignette的示例查询中,过滤掉了更多的数据(而且过滤速度非常快)