Bash 将.gprobs文件从Impute2转换为PLINK格式
我有一些插补的.gprobs文件(每个染色体一个),由从dbGaP下载的插补2插补,我需要将该文件转换为PLINK的.bed格式,以便进行一些分析 我的.gprobs文件如下所示:Bash 将.gprobs文件从Impute2转换为PLINK格式,bash,bioinformatics,imputation,genome,Bash,Bioinformatics,Imputation,Genome,我有一些插补的.gprobs文件(每个染色体一个),由从dbGaP下载的插补2插补,我需要将该文件转换为PLINK的.bed格式,以便进行一些分析 我的.gprobs文件如下所示: --- rs371609562:61395:CTT:C 61395 CTT C 0 0.023 0.977 0 0.039 0.961 0 0.015 0.985 0 0.026 0.974 0 0 1 0 0 1 0 0 1 有人能帮我找出如何将这种文件转换成PLINK格式吗?或者指导我执行转换需要哪些文件 p.
--- rs371609562:61395:CTT:C 61395 CTT C 0 0.023 0.977 0 0.039 0.961 0 0.015 0.985 0 0.026 0.974 0 0 1 0 0 1 0 0 1
有人能帮我找出如何将这种文件转换成PLINK格式吗?或者指导我执行转换需要哪些文件
p.D.:我知道这个问题可能不应该在这里,但我不知道还有其他地方可以问这个问题。由
.gprobs
看来你的意思是牛津格式,请参见:
如果这是正确的,则plink可以按如下所述的格式读取:
在同一命令中,您可以输出为PLINK二进制格式:
plink --gen file.gen --sample file.sample --make-bed --out output_prefix
请注意以下关于将牛津转换为普林克的注意事项:
因为PLINK 1二进制格式不能表示基因型
概率,不确定性大于0.1的呼叫通常为
被视为失踪,其余被视为硬电话。你可以
通过向提供数字参数来调整此阈值
--硬呼叫阈值
或者,当--hard call threshold被赋予“random”时
修饰符,调用根据
文件中的概率。(这并不理想;最好是
以单倍体敏感的方式随机化。但是对一堆
与此相关的时间,并生成一些数据的经验分布
统计数据仍然比应用单个
阈值并计算该统计信息一次。)
来源:我在下面回复了。但是你可以在www.biostars.org上获得更多的回复。我尝试了以下代码:
plink--gen file\u chr10.gprobs.gz--sample file.sample--oxford single chr 10--make bed--out output
它开始转换变体,但随后它给出了一个错误:错误:文件读取失败。
我不知道它为什么会给出这个错误。我想这可能是因为我没有提取sample.gz文件,因为它给了我一个错误,相反我提取了less file.sample.gz>file.sample
关于如何正确提取file.sample.gz的任何线索?您可能需要提取.gprobs
文件gunzip-c文件\u chr10.gprobs.gz>文件\u chr10.gen
。