Python 使用R读入和搜索超大CSV文件有意义吗？_Python_R_Database_Csv

Python 使用R读入和搜索超大CSV文件有意义吗？

python r database csv

Python 使用R读入和搜索超大CSV文件有意义吗？,python,r,database,csv,Python,R,Database,Csv,我有一个CSV文件，大约有700列和10000行。这些列中的每一列都包含每行第1列中对象的属性信息。我想在这个“数据库”中搜索符合一组基于属性信息的需求的特定记录例如，一列包含两个字母缩写形式的州信息。另一列可能包含一个首字母缩略词，表示某个地理特征。假设我正在查找状态为NY的所有行，以及GRG中的首字母缩略词我应该使用哪些软件包来处理R中的工作/数据分析如果R中没有好的包来处理如此大的数据集，我应该使用什么我熟悉R、Python、Office和一些SQL命令编辑：我不打算修改数据集，

我有一个CSV文件，大约有700列和10000行。这些列中的每一列都包含每行第1列中对象的属性信息。我想在这个“数据库”中搜索符合一组基于属性信息的需求的特定记录

例如，一列包含两个字母缩写形式的州信息。另一列可能包含一个首字母缩略词，表示某个地理特征。假设我正在查找状态为NY的所有行，以及GRG中的首字母缩略词

我应该使用哪些软件包来处理R中的工作/数据分析

如果R中没有好的包来处理如此大的数据集，我应该使用什么

我熟悉R、Python、Office和一些SQL命令

编辑：我不打算修改数据集，而是记录（打印或创建子集）查询结果。首先，我将总共进行10-12次查询，以确定此数据集是否真正满足我的需要。但我以后可能会有数百个查询—此时我希望从手动查询数据集切换到自动查询（如果可能）。

您可以使用data.table包中的fread选项

或者，您可以将数据导入RDBMS并使用RODBC连接到它

或者您可以使用Revolution Analytics的RevoScaleR软件包

或者您可以使用云来处理数据

或者你可以使用ff软件包

根据您的查询需求-data.table包是最好的

您可以使用setKey设置索引

您可以使用data.table包中的fread选项

或者，您可以将数据导入RDBMS并使用RODBC连接到它

或者您可以使用Revolution Analytics的RevoScaleR软件包

或者您可以使用云来处理数据

或者你可以使用ff软件包

根据您的查询需求-data.table包是最好的

您可以使用setKey设置索引，这取决于每列中有多少数据，如果您计划进行统计分析，我肯定会选择R。如果没有分析，那么使用pandas的python是一个很好的解决方案。不要用office处理那些文件，它会让你头疼的

如果您很勇敢，并且您的数据将会增加，那么根据以前的需要，使用R或python实现MongoDB。

根据每列中的数据量以及您计划进行统计分析，我肯定会使用R。如果没有分析，那么使用pandas的python是一个很好的解决方案。不要用office处理那些文件，它会让你头疼的

如果您很勇敢，并且您的数据将增加，请根据以前的需要使用R或python实现MongoDB。

如果您不想将整个文件加载到内存中，我建议使用python库

您可以启用“iterator=True”，然后将文件逐块加载到内存中，并循环每个块进行分析。

如果您需要任何其他信息，请告诉我。

如果您不想将整个文件加载到内存中，我建议使用python库

您可以启用“iterator=True”，然后将文件逐块加载到内存中，并循环每个块进行分析。

如果您需要任何其他信息，请告诉我。

是否要修改和保存此数据集？您主要是对数据分析感兴趣，还是打算在企业环境中使用数据集？如果您打算经常这样做，并且可以访问linux/mac计算机，我建议您在命令行上学习/使用awk。这对于sqlite来说似乎是一项完美的工作，无论是独立的还是独立的（

sqlite>.mode csv；sqlite>.import C:/work/somedata.csv tab1

）或在R中使用

库（“RSQLite”）

@ReubenL。即使你没有linux/mac机器，awk和类似的工具也可以通过cygwin轻松地安装在Windows上，是必不可少的数据科学工具。awk、grep、sed和friends。我正试图改写它以保持它的开放性，因为有两个人喜欢它。有什么建议吗？你打算修改和保存此数据集吗？你是primar吗我对数据分析很感兴趣，还是您打算在企业环境中使用数据集？如果您打算经常这样做，并且可以访问linux/mac计算机，我建议您在命令行上学习/使用awk。这对于sqlite来说似乎是一项完美的工作，无论是独立的还是独立的（

sqlite>.mode csv；sqlite>.import C:/work/somedata.csv tab1

）或在R中使用

库（“RSQLite”）

@ReubenL。即使你没有linux/mac机器，awk和类似的工具也可以通过cygwin轻松地安装在Windows上，是必不可少的数据科学工具。awk、grep、sed和friends。我正试图改写它以保持它的开放性，因为有两个人喜欢它。有什么建议吗？