R中的数据清理
我有一个csv文件,我只想提取句子的时间戳,其中包含朝方向的R中的数据清理,r,dataset,data-cleaning,R,Dataset,Data Cleaning,我有一个csv文件,我只想提取句子的时间戳,其中包含朝方向的以及句子中的水果名。我如何在R中做到这一点(或者如果有更快的方法,那是什么?) 理想情况下,我希望输出如下: 1438293900729698553, strawberry 1438293901681590725, avocado 1438293904496769068, avocado 尝试一下,其中filename是您的文件名 g <- grep("toward", readLines(filename), fixed =
以及句子中的水果名。我如何在R中做到这一点(或者如果有更快的方法,那是什么?)
理想情况下,我希望输出如下:
1438293900729698553, strawberry
1438293901681590725, avocado
1438293904496769068, avocado
尝试一下,其中filename
是您的文件名
g <- grep("toward", readLines(filename), fixed = TRUE, value = TRUE)
gsub("((?<=,).*\\[)|\\]", "", g, perl = TRUE)
# [1] "1438293900729698553,strawberry" "1438293901681590725,avocado"
# [3] "1438293904496769068,avocado"
g您可以使用grep函数来实现,但这是一个纯粹的编码问题,与统计无关。在interweb中寻找“与grep的子集”的答案。你是说操作系统?这是Mac OSX YosemiteGive这是一个try系统(“cat filename | grep-toward”,intern=TRUE)
其中filename是您的文件名或grep(“toward”,readLines(filename),fixed=TRUE,value=TRUE)
如果您只需要时间戳而不需要水果名,您可以在gsub
行的输出上使用逗号strsplit
。
g <- grep("toward", readLines(filename), fixed = TRUE, value = TRUE)
gsub("((?<=,).*\\[)|\\]", "", g, perl = TRUE)
# [1] "1438293900729698553,strawberry" "1438293901681590725,avocado"
# [3] "1438293904496769068,avocado"