Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/76.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R中的数据清理_R_Dataset_Data Cleaning - Fatal编程技术网

R中的数据清理

R中的数据清理,r,dataset,data-cleaning,R,Dataset,Data Cleaning,我有一个csv文件,我只想提取句子的时间戳,其中包含朝方向的以及句子中的水果名。我如何在R中做到这一点(或者如果有更快的方法,那是什么?) 理想情况下,我希望输出如下: 1438293900729698553, strawberry 1438293901681590725, avocado 1438293904496769068, avocado 尝试一下,其中filename是您的文件名 g <- grep("toward", readLines(filename), fixed =

我有一个csv文件,我只想提取句子的时间戳,其中包含朝方向的
以及句子中的水果名。我如何在R中做到这一点(或者如果有更快的方法,那是什么?)

理想情况下,我希望输出如下:

1438293900729698553, strawberry
1438293901681590725, avocado
1438293904496769068, avocado

尝试一下,其中
filename
是您的文件名

g <- grep("toward", readLines(filename), fixed = TRUE, value = TRUE)
gsub("((?<=,).*\\[)|\\]", "", g, perl = TRUE)
# [1] "1438293900729698553,strawberry" "1438293901681590725,avocado"   
# [3] "1438293904496769068,avocado"  

g您可以使用grep函数来实现,但这是一个纯粹的编码问题,与统计无关。在interweb中寻找“与grep的子集”的答案。你是说操作系统?这是Mac OSX YosemiteGive这是一个try
系统(“cat filename | grep-toward”,intern=TRUE)
其中filename是您的文件名或
grep(“toward”,readLines(filename),fixed=TRUE,value=TRUE)
如果您只需要时间戳而不需要水果名,您可以在
gsub
行的输出上使用逗号
strsplit
g <- grep("toward", readLines(filename), fixed = TRUE, value = TRUE)
gsub("((?<=,).*\\[)|\\]", "", g, perl = TRUE)
# [1] "1438293900729698553,strawberry" "1438293901681590725,avocado"   
# [3] "1438293904496769068,avocado"