Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/visual-studio-2010/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从CSV文件中排序非常大的表_Python_R_Csv_Sorting - Fatal编程技术网

Python 从CSV文件中排序非常大的表

Python 从CSV文件中排序非常大的表,python,r,csv,sorting,Python,R,Csv,Sorting,我有大约1亿行从一个表。该表有几列,但最重要的列是3列。比如说列colA,colB和colC 我想按colA和colB对colC值进行排序 例如: colA colB colC A B 1 C A 3 C B 1 B C 5 A B 2 C B 8 我希望结果是: colA colB colC A B 1

我有大约1亿行从一个表。该表有几列,但最重要的列是3列。比如说列
colA
colB
colC

我想按
colA
colB
colC
值进行排序

例如:

colA    colB    colC
A       B       1
C       A       3
C       B       1
B       C       5
A       B       2
C       B       8
我希望结果是:

colA    colB    colC
A       B       1
A       B       2
B       C       5
C       A       3
C       B       1
C       B       8
假设大约有10000个
colA
值和2000个
colB
值,总行数可以达到100000000行

如何使用R或python高效地对其进行排序

其他信息:


我的电脑有10个内核和62 GB的可用RAM。

这在
数据方面非常简单。表

fread("csv-file.csv", select = c("colA", "colB", "colC"), key = c("colA", "colB", "colC"))

截至2018年2月,
fread
的开发版本比稳定版本快得多:

这在
数据中非常简单。表

fread("csv-file.csv", select = c("colA", "colB", "colC"), key = c("colA", "colB", "colC"))

截至2018年2月,
fread
的开发版本要比稳定版本快得多:

有多少列(您是否关心它们)?有10列,但只有3列是重要的。如果您的数据可以放入RAM,请使用data.table包的fread函数。然后使用data.table中的排序。稍后我将发布完整的代码。因此缺少的列值用null表示?您尝试过python的pandas吗?有多少列(您是否关心它们)?有10列,但只有3列是重要的。如果您的数据可以放入RAM,请使用data.table包的fread函数。然后使用data.table中的排序。稍后我将发布完整的代码。所以缺少的列值用null表示?您尝试过python吗?