Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/sqlite/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Flowstrates和R:以所需格式提取和重塑数据_R_Sqlite_Dataframe - Fatal编程技术网

Flowstrates和R:以所需格式提取和重塑数据

Flowstrates和R:以所需格式提取和重塑数据,r,sqlite,dataframe,R,Sqlite,Dataframe,我正在尝试将大型数据集转换为所需的格式,以便在包中进行分析 我目前拥有的是一个包含起点和终点的大文件(600k行程) 格式有点像这样: tripID Month start_pt end_pt 1 June 1 3 2 June 1 3 3 July 1 5 4 July 1 7 5 July 1 7

我正在尝试将大型数据集转换为所需的格式,以便在包中进行分析

我目前拥有的是一个包含起点和终点的大文件(600k行程)

格式有点像这样:

tripID   Month start_pt   end_pt
1        June   1           3
2        June   1           3
3        July   1           5
4        July   1           7
5        July   1           7
start_pt   end_pt  June July August ... December
1          3       2    0    5          9
1          5       0    1    4          4
1          7       0    2    0          0
我需要能够生成一个文件,该文件具有单位时间(比如月)的行程计数,格式如下:

tripID   Month start_pt   end_pt
1        June   1           3
2        June   1           3
3        July   1           5
4        July   1           7
5        July   1           7
start_pt   end_pt  June July August ... December
1          3       2    0    5          9
1          5       0    1    4          4
1          7       0    2    0          0
按月对数据进行预分段,然后为每个源-目的地对生成计数是很容易的,但是将所有数据重新组合在一起会导致各种各样的问题,因为每个预分段的数据块都有非常不同的大小。因此,我似乎需要立即对整个数据集执行此操作

是否有用于执行此类处理的软件包?在SQL或SQLite中这样做会更容易吗


提前感谢您的帮助。

您可以使用
重塑2
软件包轻松完成此操作

如果您的数据是
dat

library("reshape2")
dcast(dat, start_pt+end_pt~Month, value.var="tripID", fun.aggregate=length)

这为每个
start\u pt
/
end\u pt
/
Month
组合提供了一个单独的条目,其值是该组合的案例数(该集合的
tripID
长度)。

@scuerda:如果有效,请不要忘记按下“应答”按钮。