Bash 将.gprobs文件从Impute2转换为PLINK格式_Bash_Bioinformatics_Imputation_Genome

Bash 将.gprobs文件从Impute2转换为PLINK格式

bash

Bash 将.gprobs文件从Impute2转换为PLINK格式,bash,bioinformatics,imputation,genome,Bash,Bioinformatics,Imputation,Genome,我有一些插补的.gprobs文件（每个染色体一个），由从dbGaP下载的插补2插补，我需要将该文件转换为PLINK的.bed格式，以便进行一些分析我的.gprobs文件如下所示： --- rs371609562:61395:CTT:C 61395 CTT C 0 0.023 0.977 0 0.039 0.961 0 0.015 0.985 0 0.026 0.974 0 0 1 0 0 1 0 0 1 有人能帮我找出如何将这种文件转换成PLINK格式吗？或者指导我执行转换需要哪些文件 p.

我有一些插补的.gprobs文件（每个染色体一个），由从dbGaP下载的插补2插补，我需要将该文件转换为PLINK的.bed格式，以便进行一些分析

我的.gprobs文件如下所示：

--- rs371609562:61395:CTT:C 61395 CTT C 0 0.023 0.977 0 0.039 0.961 0 0.015 0.985 0 0.026 0.974 0 0 1 0 0 1 0 0 1

有人能帮我找出如何将这种文件转换成PLINK格式吗？或者指导我执行转换需要哪些文件

p.D.：我知道这个问题可能不应该在这里，但我不知道还有其他地方可以问这个问题。

由

.gprobs

看来你的意思是牛津格式，请参见：

如果这是正确的，则plink可以按如下所述的格式读取：

在同一命令中，您可以输出为PLINK二进制格式：

plink --gen file.gen --sample file.sample --make-bed --out output_prefix

请注意以下关于将牛津转换为普林克的注意事项：

因为PLINK 1二进制格式不能表示基因型概率，不确定性大于0.1的呼叫通常为被视为失踪，其余被视为硬电话。你可以通过向提供数字参数来调整此阈值 --硬呼叫阈值

或者，当--hard call threshold被赋予“random”时修饰符，调用根据文件中的概率。（这并不理想；最好是以单倍体敏感的方式随机化。但是对一堆与此相关的时间，并生成一些数据的经验分布统计数据仍然比应用单个阈值并计算该统计信息一次。）

来源：

我在下面回复了。但是你可以在www.biostars.org上获得更多的回复。我尝试了以下代码：

plink--gen file\u chr10.gprobs.gz--sample file.sample--oxford single chr 10--make bed--out output

它开始转换变体，但随后它给出了一个错误：

错误：文件读取失败。

我不知道它为什么会给出这个错误。我想这可能是因为我没有提取sample.gz文件，因为它给了我一个错误，相反我提取了

less file.sample.gz>file.sample

关于如何正确提取file.sample.gz的任何线索？您可能需要提取

.gprobs

文件

gunzip-c文件\u chr10.gprobs.gz>文件\u chr10.gen

。