从CSV读取数据并在r中对其进行重塑

从CSV读取数据并在r中对其进行重塑,r,csv,reshape,R,Csv,Reshape,我有1980年到2004年每个月的数据集(下面给出了部分数据),但我不知道如何从CSV读取数据并将其转换为具有以下形式的矩阵:数据[lat,lon,time],其中时间从1开始到(2004-1980)*12 …您应该(始终)尝试重新组织数据,以便每列包含一种类型的信息: Year Month Lat Lon Value python脚本可能是实现这一点的最佳方法。。。一旦你有了这种风格,它将很容易在R中导入和分析 我制作了一个脚本,将为您重新组织数据。。。但现在还不清楚你是否能轻松地

我有1980年到2004年每个月的数据集(下面给出了部分数据),但我不知道如何从CSV读取数据并将其转换为具有以下形式的矩阵:数据[lat,lon,time],其中时间从1开始到(2004-1980)*12

您应该(始终)尝试重新组织数据,以便每列包含一种类型的信息:

Year  Month  Lat  Lon  Value
python脚本可能是实现这一点的最佳方法。。。一旦你有了这种风格,它将很容易在R中导入和分析

我制作了一个脚本,将为您重新组织数据。。。但现在还不清楚你是否能轻松地运行它。你使用的是什么系统

这是剧本。。。输出低于

#!/usr/bin/env python
import csv

file_obj = open('originaldata.txt', 'r')
Input = csv.reader(file_obj, delimiter='\t')

LineNo = 0
year,month,data = [],[],[]
for items in Input:
    if LineNo == 0:
        lat = items[2:]
    elif LineNo == 1:
        lon = items[2:]
    else:
        year.append(items[0])
        month.append(items[1])
        data.append(items[2:])
    LineNo += 1

# print header
print "%s\t%s\t%s\t%s\t%s"% ("Year","Month","Lat","Lon","Data")
for La,Lo,Ind in zip(lat,lon,range(len(lat))):
    for Y,M,D in zip(year,month,data):
        print "%s\t%s\t%s\t%s\t%s"% (Y,M,La,Lo,D[Ind])
脚本的输出:

Year  Month  Lat     Lon    Data
1980    1   31.5    -111.5  0
1980    2   31.5    -111.5  0
1980    3   31.5    -111.5  0
1980    4   31.5    -111.5  0
1980    5   31.5    -111.5  8.1
1980    6   31.5    -111.5  5.1
1980    7   31.5    -111.5  0
1980    8   31.5    -111.5  0
1980    9   31.5    -111.5  0
1980    10  31.5    -111.5  0
1980    11  31.5    -111.5  0
1980    12  31.5    -111.5  0
1981    1   31.5    -111.5  0
1981    2   31.5    -111.5  0
1981    3   31.5    -111.5  0
1981    4   31.5    -111.5  0
1981    5   31.5    -111.5  0
1981    6   31.5    -111.5  0
1981    7   31.5    -111.5  0
1981    8   31.5    -111.5  0
1981    9   31.5    -111.5  0
1981    10  31.5    -111.5  0
1981    11  31.5    -111.5  0
1981    12  31.5    -111.5  0
1980    1   31.5    -110.5  0
1980    2   31.5    -110.5  0
1980    3   31.5    -110.5  0
1980    4   31.5    -110.5  881
1980    5   31.5    -110.5  794.1
1980    6   31.5    -110.5  644.4
1980    7   31.5    -110.5  85.2
1980    8   31.5    -110.5  0.1
1980    9   31.5    -110.5  0
1980    10  31.5    -110.5  0
1980    11  31.5    -110.5  0
1980    12  31.5    -110.5  0
1981    1   31.5    -110.5  0
1981    2   31.5    -110.5  0
1981    3   31.5    -110.5  0
1981    4   31.5    -110.5  0
1981    5   31.5    -110.5  0
1981    6   31.5    -110.5  0
1981    7   31.5    -110.5  0
1981    8   31.5    -110.5  0
1981    9   31.5    -110.5  0
1981    10  31.5    -110.5  0
装载很容易

meaningful.name<-read.csv(file.choose(new = FALSE))
meaningful.name<-as.matrix(meaningful.name)
meaningful.name$time<-1:nrow(meaningful.name)

有意义的.name数据已经存在于
.rda
数据文件中,因此读取它很容易。从干净的工作区开始,执行以下操作:

load("fedfire8004.rda")
ls()                  ## What objects were read in?
# [1] "fedfire8004"
str(fedfire8004)      ## What does that object look like?
# List of 10
# $ lon  : num [1:24] -124 -124 -122 -122 -120 ...
# $ lat  : num [1:18] 31.5 32.5 33.5 34.5 35.5 36.5 37.5 38.5 39.5 40.5 ...
# $ x    : num [1:25] -125 -124 -123 -122 -121 -120 -119 -118 -117 -116 ...
# $ y    : num [1:19] 31 32 33 34 35 36 37 38 39 40 ...
# $ year : int [1:300] 1980 1980 1980 1980 1980 1980 1980 1980 1980 1980 ...
# $ month: int [1:300] 1 2 3 4 5 6 7 8 9 10 ...
# $ acres: num [1:24, 1:18, 1:300] NA NA NA NA NA NA NA NA NA NA ...
# ..- attr(*, "dimnames")=List of 3
# .. ..$ lon  : chr [1:24] "-124.5" "-123.5" "-122.5" "-121.5" ...
# .. ..$ lat  : chr [1:18] "31.5" "32.5" "33.5" "34.5" ...
# .. ..$ month: chr [1:300] "1980.1" "1980.2" "1980.3" "1980.4" ...
# $ fires: num [1:24, 1:18, 1:300] NA NA NA NA NA NA NA NA NA NA ...
# ..- attr(*, "dimnames")=List of 3
# .. ..$ lon  : chr [1:24] "-124.5" "-123.5" "-122.5" "-121.5" ...
# .. ..$ lat  : chr [1:18] "31.5" "32.5" "33.5" "34.5" ...
# .. ..$ month: chr [1:300] "1980.1" "1980.2" "1980.3" "1980.4" ...
# $ meta : chr "USFS, NPS, BLM, BIA total fires and acres on 1 degree monthly grid 1980-2004"
# $ cite : chr "Westerling, A.L., T.J. Brown, A. Gershunov, D.R. Cayan and M.D. Dettinger, 2003: Climate and Wildfire in the Western United Sta"| __truncated__
如您所见,核心数据似乎是
acres
激发
列表项。将它们重塑为
long
数据集可能更方便。最直接的方法可能是从“重塑2”包中熔化


我不熟悉Python。用Python做这件事需要很多时间吗?因为我需要在本周三之前完成。如果是一次性交易,您可以复制粘贴…但是考虑到数据集的大小,它可能会有点长。如果不清楚,我将编辑我的答案,以显示我设想的格式。是的,我可以复制粘贴,但如果没有其他更简单的方法,我想复制粘贴。在问题解决之前,不要急于接受答案!;^)在评论中解释windows有点困难,但确实可行。如果您想将原始数据文件发布到某个地方,我可以通过脚本运行它并重新发布新的格式…我可以加载数据,但我不想将其保留为原始格式。我希望它是latlontime.Ok的格式。也许我没听懂你说的话。让我先试试看。谢谢教授,我对你想做什么仍然很困惑。上面的数据在同一列上有lat lon/month,下面是1:9,后面是三列,顶部是31.5。lat、lon代表什么?其他三列代表什么?或者工作表是否继续?JoshGuillbert OP在每个数据列的顶部都有一些数据(lat/lon),而不是与数据值关联。请参阅下面我的答案,了解我认为正确的数据格式…@beroe和@Josh Guilbert:数据可在此处下载:文件名为FedFire8004.zip,因此第一部分是lat,第二部分是lon,其余是1980年至2004年的数据,请提供一个(即不是屏幕转储)以及您尝试过的代码。谢谢@Henrik:数据可在此处下载:ulmo.ucmerced.edu/w_FireData.html文件名为FedFire8004。zip@Ananda马托:还有一个问题。我是否可能将这些文件(例如“Acres”)从原始格式转换为netcdf格式?@user2607526,对不起,我对netcdf格式了解不多。有处理格式的软件包,但我从未使用过。这本身可能是一个新问题。@Ananda Mahto:我不知道如何感谢你的帮助。再次感谢。这太好了。我不知道如何使用.rda文件。非常感谢。@user2607526,没问题
.rda
是用于指定R数据文件格式的常用扩展名之一。
library(reshape2)
Acres <- melt(fedfire8004$acres)
Fires <- melt(fedfire8004$fires)
head(Acres)
#      lon  lat  month value
# 1 -124.5 31.5 1980.1    NA
# 2 -123.5 31.5 1980.1    NA
# 3 -122.5 31.5 1980.1    NA
# 4 -121.5 31.5 1980.1    NA
# 5 -120.5 31.5 1980.1    NA
# 6 -119.5 31.5 1980.1    NA
tail(Acres)
#           lon  lat   month value
# 129595 -106.5 48.5 2004.12     0
# 129596 -105.5 48.5 2004.12     0
# 129597 -104.5 48.5 2004.12    71
# 129598 -103.5 48.5 2004.12    NA
# 129599 -102.5 48.5 2004.12    NA
# 129600 -101.5 48.5 2004.12    NA
head(Fires)
#      lon  lat  month value
# 1 -124.5 31.5 1980.1    NA
# 2 -123.5 31.5 1980.1    NA
# 3 -122.5 31.5 1980.1    NA
# 4 -121.5 31.5 1980.1    NA
# 5 -120.5 31.5 1980.1    NA
# 6 -119.5 31.5 1980.1    NA
tail(Fires)
#           lon  lat   month value
# 129595 -106.5 48.5 2004.12     0
# 129596 -105.5 48.5 2004.12     0
# 129597 -104.5 48.5 2004.12     2
# 129598 -103.5 48.5 2004.12    NA
# 129599 -102.5 48.5 2004.12    NA
# 129600 -101.5 48.5 2004.12    NA