Bash 使用>；在文件中添加包含相同值的列；1M柱_Bash_Unix_Bioinformatics

Bash 使用>；在文件中添加包含相同值的列；1M柱

bash unix

Bash 使用>；在文件中添加包含相同值的列；1M柱,bash,unix,bioinformatics,Bash,Unix,Bioinformatics,我有一个非常大的文件，超过一百万列。我需要向文件中添加第二列、第三列、第四列、第五列和第六列，第二列是第一列的副本，其他列在每行上包含相同的值。例如，我有一个如下所示的文件： id1 A A C T .. id2 A G T C .. id3 G A T C .. id4 G G T T .. . . 我需要把它改成： id1 id1 0 0 -9 -9 A A C T .. id2 id2 0 0 -9 -9 A G T C .. id3 id3 0 0 -9 -9 G A T C .

我有一个非常大的文件，超过一百万列。我需要向文件中添加第二列、第三列、第四列、第五列和第六列，第二列是第一列的副本，其他列在每行上包含相同的值。例如，我有一个如下所示的文件：

id1 A A C T ..
id2 A G T C ..
id3 G A T C ..
id4 G G T T ..
.   
.

我需要把它改成：

id1 id1 0 0 -9 -9 A A C T ..
id2 id2 0 0 -9 -9 A G T C ..
id3 id3 0 0 -9 -9 G A T C ..
id4 id4 0 0 -9 -9 G G T T ..
.   
.

有没有关于如何在Unix下高效地执行此操作的想法（因为我需要重复很多次）

如果写C++程序不够快，那只是几行。

我猜我们正在尝试将这个文件转换成，如果是的话，就不需要添加那些列，Pink可以用下面的标志处理：

格式不规则的PLINK文本文件

这些允许您使用缺少族ID的.fam或.ped文件，父母ID、性别和/或表型列

--no-fid
--no-parents
--no-sex
--no-pheno

我猜你不能让这更快；I/O瓶颈很可能会超过正则表达式开销。

--no-fid
--no-parents
--no-sex
--no-pheno