Python 使用R读入和搜索超大CSV文件有意义吗?

Python 使用R读入和搜索超大CSV文件有意义吗?,python,r,database,csv,Python,R,Database,Csv,我有一个CSV文件,大约有700列和10000行。这些列中的每一列都包含每行第1列中对象的属性信息。我想在这个“数据库”中搜索符合一组基于属性信息的需求的特定记录 例如,一列包含两个字母缩写形式的州信息。另一列可能包含一个首字母缩略词,表示某个地理特征。假设我正在查找状态为NY的所有行,以及GRG中的首字母缩略词 我应该使用哪些软件包来处理R中的工作/数据分析 如果R中没有好的包来处理如此大的数据集,我应该使用什么 我熟悉R、Python、Office和一些SQL命令 编辑:我不打算修改数据集,

我有一个CSV文件,大约有700列和10000行。这些列中的每一列都包含每行第1列中对象的属性信息。我想在这个“数据库”中搜索符合一组基于属性信息的需求的特定记录

例如,一列包含两个字母缩写形式的州信息。另一列可能包含一个首字母缩略词,表示某个地理特征。假设我正在查找状态为NY的所有行,以及GRG中的首字母缩略词

我应该使用哪些软件包来处理R中的工作/数据分析

如果R中没有好的包来处理如此大的数据集,我应该使用什么

我熟悉R、Python、Office和一些SQL命令


编辑:我不打算修改数据集,而是记录(打印或创建子集)查询结果。首先,我将总共进行10-12次查询,以确定此数据集是否真正满足我的需要。但我以后可能会有数百个查询—此时我希望从手动查询数据集切换到自动查询(如果可能)。

您可以使用data.table包中的fread选项

或者,您可以将数据导入RDBMS并使用RODBC连接到它

或者您可以使用Revolution Analytics的RevoScaleR软件包

或者您可以使用云来处理数据

或者你可以使用ff软件包

根据您的查询需求-data.table包是最好的
您可以使用setKey设置索引

您可以使用data.table包中的fread选项

或者,您可以将数据导入RDBMS并使用RODBC连接到它

或者您可以使用Revolution Analytics的RevoScaleR软件包

或者您可以使用云来处理数据

或者你可以使用ff软件包

根据您的查询需求-data.table包是最好的
您可以使用setKey设置索引,这取决于每列中有多少数据,如果您计划进行统计分析,我肯定会选择R。如果没有分析,那么使用pandas的python是一个很好的解决方案。不要用office处理那些文件,它会让你头疼的


如果您很勇敢,并且您的数据将会增加,那么根据以前的需要,使用R或python实现MongoDB。

根据每列中的数据量以及您计划进行统计分析,我肯定会使用R。如果没有分析,那么使用pandas的python是一个很好的解决方案。不要用office处理那些文件,它会让你头疼的


如果您很勇敢,并且您的数据将增加,请根据以前的需要使用R或python实现MongoDB。

如果您不想将整个文件加载到内存中,我建议使用python库

您可以启用“iterator=True”,然后将文件逐块加载到内存中,并循环每个块进行分析。
如果您需要任何其他信息,请告诉我。

如果您不想将整个文件加载到内存中,我建议使用python库

您可以启用“iterator=True”,然后将文件逐块加载到内存中,并循环每个块进行分析。
如果您需要任何其他信息,请告诉我。

是否要修改和保存此数据集?您主要是对数据分析感兴趣,还是打算在企业环境中使用数据集?如果您打算经常这样做,并且可以访问linux/mac计算机,我建议您在命令行上学习/使用awk。这对于sqlite来说似乎是一项完美的工作,无论是独立的还是独立的(
sqlite>.mode csv;sqlite>.import C:/work/somedata.csv tab1
)或在R中使用
库(“RSQLite”)
@ReubenL。即使你没有linux/mac机器,awk和类似的工具也可以通过cygwin轻松地安装在Windows上,是必不可少的数据科学工具。awk、grep、sed和friends。我正试图改写它以保持它的开放性,因为有两个人喜欢它。有什么建议吗?你打算修改和保存此数据集吗?你是primar吗我对数据分析很感兴趣,还是您打算在企业环境中使用数据集?如果您打算经常这样做,并且可以访问linux/mac计算机,我建议您在命令行上学习/使用awk。这对于sqlite来说似乎是一项完美的工作,无论是独立的还是独立的(
sqlite>.mode csv;sqlite>.import C:/work/somedata.csv tab1
)或在R中使用
库(“RSQLite”)
@ReubenL。即使你没有linux/mac机器,awk和类似的工具也可以通过cygwin轻松地安装在Windows上,是必不可少的数据科学工具。awk、grep、sed和friends。我正试图改写它以保持它的开放性,因为有两个人喜欢它。有什么建议吗?