Python 从CSV文件中排序非常大的表
我有大约1亿行从一个表。该表有几列,但最重要的列是3列。比如说列Python 从CSV文件中排序非常大的表,python,r,csv,sorting,Python,R,Csv,Sorting,我有大约1亿行从一个表。该表有几列,但最重要的列是3列。比如说列colA,colB和colC 我想按colA和colB对colC值进行排序 例如: colA colB colC A B 1 C A 3 C B 1 B C 5 A B 2 C B 8 我希望结果是: colA colB colC A B 1
colA
,colB
和colC
我想按colA
和colB
对colC
值进行排序
例如:
colA colB colC
A B 1
C A 3
C B 1
B C 5
A B 2
C B 8
我希望结果是:
colA colB colC
A B 1
A B 2
B C 5
C A 3
C B 1
C B 8
假设大约有10000个colA
值和2000个colB
值,总行数可以达到100000000行
如何使用R或python高效地对其进行排序
其他信息:
我的电脑有10个内核和62 GB的可用RAM。这在
数据方面非常简单。表
:
fread("csv-file.csv", select = c("colA", "colB", "colC"), key = c("colA", "colB", "colC"))
截至2018年2月,
fread
的开发版本比稳定版本快得多:这在数据中非常简单。表
:
fread("csv-file.csv", select = c("colA", "colB", "colC"), key = c("colA", "colB", "colC"))
截至2018年2月,
fread
的开发版本要比稳定版本快得多:有多少列(您是否关心它们)?有10列,但只有3列是重要的。如果您的数据可以放入RAM,请使用data.table包的fread函数。然后使用data.table中的排序。稍后我将发布完整的代码。因此缺少的列值用null表示?您尝试过python的pandas吗?有多少列(您是否关心它们)?有10列,但只有3列是重要的。如果您的数据可以放入RAM,请使用data.table包的fread函数。然后使用data.table中的排序。稍后我将发布完整的代码。所以缺少的列值用null表示?您尝试过python吗?