R 从ensembl_gene_id获取hgnc_符号/gene_名称
我有以下代码(来自): 如果我将此ID赋予getBM(),它将不返回任何内容 但是,如果我删除该点后的数字,该点如下:R 从ensembl_gene_id获取hgnc_符号/gene_名称,r,bioinformatics,bioconductor,biomart,R,Bioinformatics,Bioconductor,Biomart,我有以下代码(来自): 如果我将此ID赋予getBM(),它将不返回任何内容 但是,如果我删除该点后的数字,该点如下: "ENSG00000260727", "ENSG00000277521", "ENSG00000116514" 我得到了预期的结果 有没有办法给gene_ID加上分数并得到预期的结果?不是答案,但评论有点太长;如果认为不合适,乐意移除 简而言之,是的,您需要删除Ensembl基因名称的“点位”部分。这些数字表示与稳定的Ensembl标识符相关联的不同版本号 发件人: 当在两种
"ENSG00000260727", "ENSG00000277521", "ENSG00000116514"
我得到了预期的结果
有没有办法给gene_ID加上分数并得到预期的结果?不是答案,但评论有点太长;如果认为不合适,乐意移除 简而言之,是的,您需要删除Ensembl基因名称的“点位”部分。这些数字表示与稳定的Ensembl标识符相关联的不同版本号 发件人: 当在两种符号之间重新分配稳定标识符时,我们可以选择性地选择增加使用稳定标识符分配的版本号。我们这样做是为了表明实体的潜在变化 对于基因(即形式为
ENSG*
)的Ensembl标识符),当链接到基因的转录本集发生变化时,版本号增加
这篇文章实际上是Biostars上一篇文章的翻版:;您应该看看这里讨论的一些R解决方案
后记 与其使用Biomart,不如使用一些现有的。例如,看看
- 由约翰内斯·雷纳维护
- 余光创的功能。它曾经是一个独立的软件包,但被同一作者吸收到了
,并提供了“通用生物ID转换器”功能李>clusterProfiler
“ensembl\u基因id”
。无论如何,对于不同基因命名系统(Ensembl、Hugo、Entrez、RefSeq等)之间的映射,通常最好使用Bioconductor的org.*.db
包;Biomart的速度很慢,而且通常不是最新的。
"ENSG00000260727.1", "ENSG00000277521.1", "ENSG00000116514.16"
"ENSG00000260727", "ENSG00000277521", "ENSG00000116514"