Python 从CSV文件中排序非常大的表_Python_R_Csv_Sorting

Python 从CSV文件中排序非常大的表

python r csv sorting

Python 从CSV文件中排序非常大的表,python,r,csv,sorting,Python,R,Csv,Sorting,我有大约1亿行从一个表。该表有几列，但最重要的列是3列。比如说列colA，colB和colC 我想按colA和colB对colC值进行排序例如： colA colB colC A B 1 C A 3 C B 1 B C 5 A B 2 C B 8 我希望结果是： colA colB colC A B 1

我有大约1亿行从一个表。该表有几列，但最重要的列是3列。比如说列

colA

，

colB

和

colC

我想按

colA

和

colB

对

colC

值进行排序

例如：

colA    colB    colC
A       B       1
C       A       3
C       B       1
B       C       5
A       B       2
C       B       8

我希望结果是：

colA    colB    colC
A       B       1
A       B       2
B       C       5
C       A       3
C       B       1
C       B       8

假设大约有10000个

colA

值和2000个

colB

值，总行数可以达到100000000行

如何使用R或python高效地对其进行排序

其他信息：

我的电脑有10个内核和62 GB的可用RAM。

这在

数据方面非常简单。表

：

fread("csv-file.csv", select = c("colA", "colB", "colC"), key = c("colA", "colB", "colC"))

截至2018年2月，

fread

的开发版本比稳定版本快得多：

这在

数据中非常简单。表

：

fread("csv-file.csv", select = c("colA", "colB", "colC"), key = c("colA", "colB", "colC"))

截至2018年2月，

fread

的开发版本要比稳定版本快得多：

有多少列（您是否关心它们）？有10列，但只有3列是重要的。如果您的数据可以放入RAM，请使用data.table包的fread函数。然后使用data.table中的排序。稍后我将发布完整的代码。因此缺少的列值用null表示？您尝试过python的pandas吗？有多少列（您是否关心它们）？有10列，但只有3列是重要的。如果您的数据可以放入RAM，请使用data.table包的fread函数。然后使用data.table中的排序。稍后我将发布完整的代码。所以缺少的列值用null表示？您尝试过python吗？