R 按字符的第n个实例拆分数据帧中的列
我有一个包含多个列的数据框,其中一列由管道“|”和我试图获取的信息填充 例如:R 按字符的第n个实例拆分数据帧中的列,r,dataframe,split,dplyr,character,R,Dataframe,Split,Dplyr,Character,我有一个包含多个列的数据框,其中一列由管道“|”和我试图获取的信息填充 例如: View(Table$Column) "|1||KK|12|Gold||4K|" "|1||Rst|E|Silver||13||" "|1||RST|E|Silver||18||" "|1||KK|Y|Iron|y|12||" "|1||||Copper|Cpr|||E" "|1||||Iron|||12|F" 以此类推,大约12万行。 我试图挖掘的是本系列中第5个管道和第6个管道之间的所有内容,但在它自己的列向量
View(Table$Column)
"|1||KK|12|Gold||4K|"
"|1||Rst|E|Silver||13||"
"|1||RST|E|Silver||18||"
"|1||KK|Y|Iron|y|12||"
"|1||||Copper|Cpr|||E"
"|1||||Iron|||12|F"
以此类推,大约12万行。
我试图挖掘的是本系列中第5个管道和第6个管道之间的所有内容,但在它自己的列向量中,因此最终结果如下所示:
View(Extracted)
Gold
Silver
Silver
Iron
Copper
Iron
我不想用正则表达式。我的工具在这里仅限于R。你们有什么建议来克服这个问题吗
谢谢。1)我们可以在分隔符
上使用基R
中的strsplit
,并从向量的列表中提取第6个元素
sapply(strsplit(Table$Column, "|", fixed = TRUE), `[`, 6)
#[1] "Gold" "Silver" "Silver" "Iron" "Copper" "Iron"
2)或使用regex
(再次从base R
),使用sub
提取第6个单词
sub("^([|][^|]+){4}[|]([^|]*).*", "\\2",
gsub("(?<=[|])(?=[|])", "and", Table$Column, perl = TRUE))
#[1] "Gold" "Silver" "Silver" "Iron" "Copper" "Iron"
sub(“^([|][^ |]+){4}[|]([^ |]*)*)*,“\\2”,
gsub((?1)我们可以在分隔符
上使用strsplit
中的基R
,并从向量的列表中提取第6个元素
sapply(strsplit(Table$Column, "|", fixed = TRUE), `[`, 6)
#[1] "Gold" "Silver" "Silver" "Iron" "Copper" "Iron"
2)或使用regex
(再次从base R
),使用sub
提取第6个单词
sub("^([|][^|]+){4}[|]([^|]*).*", "\\2",
gsub("(?<=[|])(?=[|])", "and", Table$Column, perl = TRUE))
#[1] "Gold" "Silver" "Silver" "Iron" "Copper" "Iron"
sub(“^([|][^ |]+){4}[|]([^ |]*)*)*,“\\2”,
gsub((?您可以尝试以下方法:
df <- data.frame(x = c("|1||KK|12|Gold||4K|", "|1||Rst|E|Silver||13||"), stringsAsFactors = FALSE)
library(stringr)
stringr::str_split(df$x, "\\|", simplify = TRUE)[, 6]
df您可以尝试以下方法:
df <- data.frame(x = c("|1||KK|12|Gold||4K|", "|1||Rst|E|Silver||13||"), stringsAsFactors = FALSE)
library(stringr)
stringr::str_split(df$x, "\\|", simplify = TRUE)[, 6]
df1)假设x在最终用途的注释中重复定义read.table
如图所示。不使用正则表达式或包
read.table(text = Table$Column, sep = "|", header = FALSE,
as.is = TRUE, fill = TRUE)[6]
给予:
V6
1 Gold
2 Silver
3 Silver
4 Iron
5 Copper
6 Iron
commodity
1 Gold
2 Silver
3 Silver
4 Iron
5 Copper
6 Iron
commodities
1 Gold
2 Silver
3 Silver
4 Iron
5 Copper
6 Iron
2)此替代方案确实使用了正则表达式(问题不要求使用正则表达式),但为了以防万一,这里是一个tidyr解决方案。请注意,它需要tidyr 0.8.2或更高版本,因为早期版本的tidyr在into=
参数中不支持NA
library(dplyr)
library(tidyr)
Table %>%
separate(Column, into = c(rep(NA, 5), "commodity"), sep = "\\|", extra = "drop")
给予:
V6
1 Gold
2 Silver
3 Silver
4 Iron
5 Copper
6 Iron
commodity
1 Gold
2 Silver
3 Silver
4 Iron
5 Copper
6 Iron
commodities
1 Gold
2 Silver
3 Silver
4 Iron
5 Copper
6 Iron
3)这是另一个基本解决方案。鉴于(1)要简单得多,这可能不是您想要的解决方案,但我想看看是否可以在base中找到第二种不使用正则表达式的方法。请注意,如果strsplit
的split=
参数是“
然后它被特殊处理,因此不是正则表达式。它创建了一个列表,其中每个组件都是单个字符的向量。每个这样的向量都被传递给匿名函数,该函数用序号标记|
和它后面字段中的字符。然后我们获取对应于5的字符(第一个除外,因为它是|
)并使用粘贴将它们折叠在一起
data.frame(commodities = sapply(strsplit(Table$Column, ""), function(chars) {
wx <- which(cumsum(chars == "|") == 5)
paste(chars[seq(wx[2], tail(wx, 1))], collapse = "")
}), stringsAsFactors = FALSE)
注
表1)假设x在最终用途注释中重复定义读取。表如图所示。不使用正则表达式或包
read.table(text = Table$Column, sep = "|", header = FALSE,
as.is = TRUE, fill = TRUE)[6]
给予:
V6
1 Gold
2 Silver
3 Silver
4 Iron
5 Copper
6 Iron
commodity
1 Gold
2 Silver
3 Silver
4 Iron
5 Copper
6 Iron
commodities
1 Gold
2 Silver
3 Silver
4 Iron
5 Copper
6 Iron
2)这个替代方案确实使用了正则表达式(问题不要求使用正则表达式),但为了以防万一,这里有一个tidyr解决方案。请注意,它需要tidyr 0.8.2或更高版本,因为早期版本的tidyr在into=
参数中不支持NA
library(dplyr)
library(tidyr)
Table %>%
separate(Column, into = c(rep(NA, 5), "commodity"), sep = "\\|", extra = "drop")
给予:
V6
1 Gold
2 Silver
3 Silver
4 Iron
5 Copper
6 Iron
commodity
1 Gold
2 Silver
3 Silver
4 Iron
5 Copper
6 Iron
commodities
1 Gold
2 Silver
3 Silver
4 Iron
5 Copper
6 Iron
3)这是另一种基本解决方案。这可能不是你想要的方法,因为(1)要简单得多,但我想看看我们是否能在base中找到第二种不使用regex的方法。请注意,如果strsplit
的split=
参数是”
,那么它将被特殊处理,因此不是正则表达式。它创建一个列表,其中每个组件都是单个字符的向量。每个这样的向量都传递给匿名函数,该函数用序号标记|
及其后面字段中的字符。然后,我们获取对应于5的字符(第一个字符除外,因为它是|
),并使用粘贴将它们折叠在一起
data.frame(commodities = sapply(strsplit(Table$Column, ""), function(chars) {
wx <- which(cumsum(chars == "|") == 5)
paste(chars[seq(wx[2], tail(wx, 1))], collapse = "")
}), stringsAsFactors = FALSE)
注
表格