R应用并保留带有性别数据包的所有行
我正在寻找一种将性别函数应用于姓名列表的好方法(我从XML中提取),但我希望保留所有行,以便连接到其他数据。有什么好的方法来解决这个问题的建议吗 目前,我正在从示例脚本中删除一行名称“Hjuk” 当性别功能失效时,我想将该性别识别为“未知”或NA。我的完整数据集相当大,大约运行11000行。谢谢你的建议 以下是一个例子:R应用并保留带有性别数据包的所有行,r,apply,na,R,Apply,Na,我正在寻找一种将性别函数应用于姓名列表的好方法(我从XML中提取),但我希望保留所有行,以便连接到其他数据。有什么好的方法来解决这个问题的建议吗 目前,我正在从示例脚本中删除一行名称“Hjuk” 当性别功能失效时,我想将该性别识别为“未知”或NA。我的完整数据集相当大,大约运行11000行。谢谢你的建议 以下是一个例子: require(gender) df0 <- data.frame(c("Sara","Tiffany","Tyler","Rajdeep","Josee","Hjuk
require(gender)
df0 <- data.frame(c("Sara","Tiffany","Tyler","Rajdeep","Josee","Hjuk"), stringsAsFactors = FALSE)
colnames(df0) <- "v1"
df1 <- apply(df0, 1, function(x) gender(x))
df2 <- do.call(rbind, lapply(df1, data.frame, stringsAsFactors=FALSE))
df2
name proportion_male proportion_female gender year_min year_max
1 Sara 0.0029 0.9971 female 1932 2012
2 Tiffany 0.0034 0.9966 female 1932 2012
3 Tyler 0.9714 0.0286 male 1932 2012
4 Rajdeep 0.7786 0.2214 male 1932 2012
5 Josee 0.0000 1.0000 female 1932 2012
require(性别)
df0您可以使用
df1 <- merge(df0,gender(df0$v1),by.x="v1",by.y="name",all.x=TRUE)
df1如果看不到函数,很难提供帮助。在函数本身中是否有“未知”选项?它似乎没有内置该功能。我想知道我是否可以返回NA,或者用一个键连接到原始数据集。我可能只是需要更多的咖啡…我不喜欢重复的名字。我假设我可以在数据帧中添加一个唯一的ID,然后运行merge<代码>df0或尝试df1