R可以处理多少数据?

R可以处理多少数据?,r,large-data,R,Large Data,我所说的“句柄”是指操纵多列数据行。R如何与Excel、SPSS、SAS等工具进行比较?R是查看“大数据”(数亿到数十亿行)的可行工具吗?如果不是,哪些统计编程工具最适合分析大型数据集 如果你看一下on CRAN,你会很好地了解R在高性能方面的作用。我将用R和大数据集来解释我的短篇故事。 我有一个从R到RDBMS的连接器 我在那里储存了8000万种化合物 我构建了一个查询,收集了这些数据的一些子集。 然后对该子集进行操作。 我的电脑内存中有超过200k的行,R简直快窒息了 核心二重唱 4

我所说的“句柄”是指操纵多列数据行。R如何与Excel、SPSS、SAS等工具进行比较?R是查看“大数据”(数亿到数十亿行)的可行工具吗?如果不是,哪些统计编程工具最适合分析大型数据集

如果你看一下on CRAN,你会很好地了解R在高性能方面的作用。

我将用R和大数据集来解释我的短篇故事。
我有一个从R到RDBMS的连接器

  • 我在那里储存了8000万种化合物
我构建了一个查询,收集了这些数据的一些子集。
然后对该子集进行操作。
我的电脑内存中有超过200k的行,R简直快窒息了

  • 核心二重唱
  • 4 GB内存

所以,为机器处理一些合适的子集是一个很好的方法。

您可以在主体中存储与RAM一样多的数据,但例外情况是,目前向量和矩阵仅限于2^31-1个元素,因为R对向量使用32位索引。一般向量(列表及其衍生数据帧)限制为2^31-1个分量,每个分量的限制与向量/矩阵/列表/数据帧等相同

当然,这些都是理论上的限制,如果你想对R中的数据做任何事情,它将不可避免地需要空间来容纳至少两个副本,因为R通常会复制传递给函数的数据等


努力允许在磁盘上存储(而不是在RAM中);但是,即使是这些限制也将被限制在上述在R中使用的2^31-1限制中。请参阅@Roman的帖子中链接到的高性能计算任务视图的大内存和内存不足数据部分。

也许它适合“大数据”的一个良好迹象是,R已经成为开发人员在Kaggle.com数据建模竞赛中的首选平台。参见Revolution Analytics网站上的——R以健康的优势击败SAS和SPSS。R所缺乏的开箱即用的数字处理能力显然弥补了它的灵活性


除了网站上提供的内容外,还有几本新书介绍了如何利用R来应对大数据。(Matloff 2011;No Starch Press)介绍了如何编写优化的R代码、并行计算以及如何将R与C结合使用。整本书都写得很好,包含了大量的代码示例和演练。(McCallum&Weston 2011;O'Reilly)看起来也不错

只要不将数据存储到RAM中,就可以使用任何语言(Python)处理几乎无穷无尽的数据。哦,等等,我迟到两天了吗?Excel无法处理超过一百万行的CSV文件。哇,。。给出“-”的人,你能解释一下为什么吗?试着添加一个可复制的例子,也许用SQLite代替RBDMS。或者创建一个有200k行的随机向量,看看它是否阻塞。或者告诉我们您的数据集有多少列。等等