List 从这个网站上搜索一个术语列表,即使其中任何一个术语都会丢失

List 从这个网站上搜索一个术语列表,即使其中任何一个术语都会丢失,list,r,List,R,我正在尝试使用RCurl包从genecard数据库获取数据 我在之前发布的问题中读到了一个很好的解决方案: 然而,我的问题是不同的形式,我需要进一步的支持,从experist。而不是从网页中删除所有链接。我脑子里有大约1000个基因。它们是以基因符号的形式出现的(有些基因符号可以在网页中找到,有些是数据库中新发现的)。这是我的基因列表的一部分 TP53 SOD1 表皮生长因子受体 C2d AKT2 NFKB1 C2d不在数据库中,因此,当我手动执行搜索时,我将看到。 “对不起,C2d没有基因

我正在尝试使用RCurl包从genecard数据库获取数据

我在之前发布的问题中读到了一个很好的解决方案:

然而,我的问题是不同的形式,我需要进一步的支持,从experist。而不是从网页中删除所有链接。我脑子里有大约1000个基因。它们是以基因符号的形式出现的(有些基因符号可以在网页中找到,有些是数据库中新发现的)。这是我的基因列表的一部分

TP53 SOD1 表皮生长因子受体 C2d AKT2 NFKB1

C2d不在数据库中,因此,当我手动执行搜索时,我将看到。 “对不起,C2d没有基因卡”

当我使用之前问题中发布的解决方案进行分析时

(1) 我首先读了这张名单

(2) 然后,我使用上一个解决方案中的get_structs函数将列表中的每个基因sybmols替换到以下网站 .

(3) 使用上一条消息中的get_data_url函数,删除列表中每个基因所需的信息

它适用于TP53、SOD1、EGFR,但当搜索涉及C2d时。进程停止

由于我得到了约1000个基因,我确信其中一些基因在网页上丢失了

我怎样才能得到一个修改过的基因列表来告诉我1000个基因中,哪一个是自动缺失的?所以,我可以使用上一个问题中列出的相同方法,根据网页中现有的新基因列表获取我需要的所有数据

或者有没有办法要求R跳过那些缺失的项目,并持续进行报废,直到列表结束,但在最终结果中标记这些缺失的项目

以便于讨论过程。我已经做了一个sudo输入文件使用脚本使用在前面的问题为同一网页,他们使用

u <- c ("Aero_pern", "Ppate", "didnotexist", "Sbico")

library(RCurl)  
base_url<-"http://gtrnadb.ucsc.edu/" base_html<-getURLContent(base_url)[[1]] 
links<-strsplit(base_html,"a href=")[[1]] 

get_structs<-function(u) {     
struct_url<-paste(base_url,u,"/",u,"-structs.html",sep="")     
raw_data<-getURLContent(struct_url)     
s_split1<-strsplit(raw_data,"<PRE>")[[1]]     
all_data<-s_split1[seq(3,length(s_split1))]     
data_list<-lapply(all_data,parse_genomes)     
for (d in 1:length(data_list)) {data_list[[d]]<-append(data_list[[d]],u)}     
return(data_list) 
}

u您可以将函数调用封装在一个
try()
中,这样在出现错误时进程就不会中断。通常,这会让您循环处理有问题的案例,并返回错误消息,而不是中断流程。e、 g

dat <- list()
for (i in 1:length(u)){
   dat[[i]] <- try(get_structs(u[i]))
}

dat您的代码对我不起作用。确保它按原样运行,这样我们就有了一个可复制的示例。找不到parse_genoms()。pares_genoms函数位于他提供的链接中,但问题仍然没有显示产生错误的代码。对。我肯定很懒,所以回答我的问题+1。但是我仍然认为我们不应该为了知道代码应该做什么而去关注链接和阅读其他文本。无论如何,try()对他来说可能已经足够好了,所以希望我的答案足够了。