Genbank查询(package seqinr):在序列描述中搜索

Genbank查询(package seqinr):在序列描述中搜索,r,genbank,R,Genbank,我正在使用packagesekinr的函数query()从Genbank下载肌红蛋白DNA序列。例如: query("myoglobins","K=myoglobin AND SP=Turdus merula") 不幸的是,对于我正在寻找的很多物种,我根本没有得到任何序列(或者对于这个物种,只有一个很短的序列),即使我在网站上手动搜索时找到了序列。这是因为只在关键字中搜索“肌红蛋白”,而通常没有任何条目。通常蛋白质类型只在名称中指定(“Genbank上的定义”),但我不知道如何搜索它。 que

我正在使用package
sekinr
的函数
query()
从Genbank下载肌红蛋白DNA序列。例如:

query("myoglobins","K=myoglobin AND SP=Turdus merula")
不幸的是,对于我正在寻找的很多物种,我根本没有得到任何序列(或者对于这个物种,只有一个很短的序列),即使我在网站上手动搜索时找到了序列。这是因为只在关键字中搜索“肌红蛋白”,而通常没有任何条目。通常蛋白质类型只在名称中指定(“Genbank上的定义”),但我不知道如何搜索它。
query()
上的帮助页面在细节中似乎没有提供任何选项,没有任何“K=”的“通用搜索”不起作用,我也没有通过谷歌搜索找到任何东西


我很乐意提供任何链接、解释和帮助。谢谢!:)

seqinr包有一个完整的手册,在第5章(可在上获得)中更深入地描述了查询语言。我试着做一个类似的查询,很多基因/CD的描述都是空白的,所以当使用k=选项进行搜索时,它们不会出现。另一种方法是单独搜索该生物体,然后匹配单个注释中的基因名称,并提取登录号,然后使用该登录号重新查询数据库中的序列

这将引出第一个基因的注释:

choosebank("emblTP")
 query("ACexample", "sp=Turdus merula")
 getName(ACexample$req[[1]])
 annotations <- getAnnot(ACexample$req[[1]])
 cat(annotations, sep = "\n")
选择银行(“emblTP”)
查询(“例如”,“sp=Turdus merula”)
getName(例如$req[[1]])
注释