Flowstrates和R:以所需格式提取和重塑数据
我正在尝试将大型数据集转换为所需的格式,以便在包中进行分析 我目前拥有的是一个包含起点和终点的大文件(600k行程) 格式有点像这样:Flowstrates和R:以所需格式提取和重塑数据,r,sqlite,dataframe,R,Sqlite,Dataframe,我正在尝试将大型数据集转换为所需的格式,以便在包中进行分析 我目前拥有的是一个包含起点和终点的大文件(600k行程) 格式有点像这样: tripID Month start_pt end_pt 1 June 1 3 2 June 1 3 3 July 1 5 4 July 1 7 5 July 1 7
tripID Month start_pt end_pt
1 June 1 3
2 June 1 3
3 July 1 5
4 July 1 7
5 July 1 7
start_pt end_pt June July August ... December
1 3 2 0 5 9
1 5 0 1 4 4
1 7 0 2 0 0
我需要能够生成一个文件,该文件具有单位时间(比如月)的行程计数,格式如下:
tripID Month start_pt end_pt
1 June 1 3
2 June 1 3
3 July 1 5
4 July 1 7
5 July 1 7
start_pt end_pt June July August ... December
1 3 2 0 5 9
1 5 0 1 4 4
1 7 0 2 0 0
按月对数据进行预分段,然后为每个源-目的地对生成计数是很容易的,但是将所有数据重新组合在一起会导致各种各样的问题,因为每个预分段的数据块都有非常不同的大小。因此,我似乎需要立即对整个数据集执行此操作
是否有用于执行此类处理的软件包?在SQL或SQLite中这样做会更容易吗
提前感谢您的帮助。您可以使用
重塑2
软件包轻松完成此操作
如果您的数据是dat
library("reshape2")
dcast(dat, start_pt+end_pt~Month, value.var="tripID", fun.aggregate=length)
这为每个
start\u pt
/end\u pt
/Month
组合提供了一个单独的条目,其值是该组合的案例数(该集合的tripID
长度)。@scuerda:如果有效,请不要忘记按下“应答”按钮。