R 如何从数据框中选择与不同数据框中的观测值相对应的观测值?

R 如何从数据框中选择与不同数据框中的观测值相对应的观测值?,r,R,我有一个数据集,其中包括来自Kegg的所有代谢物ID的列表,还有一个包含我从样本中发现的代谢物ID的数据集。目标是使用我找到的代谢物ID从Kegg日期框中选择ID,并且仅使用我找到的ID 这可能看起来很琐碎,但我的数据不包括实际的分子名称,只包括ID,而Kegg数据包括分子名称。我需要这些分子的名字来做进一步的研究,弄清楚这一点可以节省我几个小时的时间。我尝试过使用过滤器和mutate命令。你可以在下面看到我的代码。我对r很陌生,所以也许这段代码可以用,而我只是在某个地方把它弄糟了 我们将有两个

我有一个数据集,其中包括来自Kegg的所有代谢物ID的列表,还有一个包含我从样本中发现的代谢物ID的数据集。目标是使用我找到的代谢物ID从Kegg日期框中选择ID,并且仅使用我找到的ID

这可能看起来很琐碎,但我的数据不包括实际的分子名称,只包括ID,而Kegg数据包括分子名称。我需要这些分子的名字来做进一步的研究,弄清楚这一点可以节省我几个小时的时间。我尝试过使用过滤器和mutate命令。你可以在下面看到我的代码。我对r很陌生,所以也许这段代码可以用,而我只是在某个地方把它弄糟了

我们将有两个这样的数据帧:


kegg_数据我不确定我是否理解,但为什么您不能将id在数据中的kegg_数据子集

my_final_data <- subset(kegg_data, kegg_data$ID %in% my_data$ID)

my_final_data
      ID molecule
2 C00002      ATP
4 C00004     NADH

my_final_data看起来您的字符串变量是因子,您可能希望它们作为字符。如何导入数据?可以这样设置一个参数:
stringsAsFactors=F
。这可能会修复您的错误。我将使用
dplyr
中的
join
操作来完成此操作。您期望的输出是什么?您是否需要
kegg_数据[kegg_数据$ID%在%my_数据$ID中]
?请保持一致。您提供的变量名为
kegg_data
my_data
,然后在您的尝试中,我们看到
kegg_component
matched_components
,以及数据中缺少的列名。