Bash 如何按照某种模式连接2个文件?
我想做的是简单地连接2个文件,如以下示例所示:Bash 如何按照某种模式连接2个文件?,bash,shell,paste,cat,Bash,Shell,Paste,Cat,我想做的是简单地连接2个文件,如以下示例所示: file 1 file 2 C1 O1 C3 O3 .. O5 O7 O9 O11 O13 O15 O17 O19 ..
file 1 file 2
C1 O1
C3 O3
.. O5
O7
O9
O11
O13
O15
O17
O19
..
所需的输出文件是:
file 3
C1
O1
O9
O17
C3
O3
O11
O19
..
..
因此,模式是:首先是C1和O1,然后是文件2中的3行(所以,打印O9);然后在文件2中再输出3行(因此,打印O17)。然后打印C3和O3,在文件2中打印3行(O10),打印3行(O18);然后……等等
我试着用cat | paste----…
做点什么,但没有成功:(
有什么建议吗
非常感谢
编辑
我忘了告诉你它们是大文件
这是我的输入文件
cat file 1
C 18 -2.182951850 -0.000000000 -6.517815410
C 20 -4.127401075 0.000000000 -0.446529291
C 22 -3.314258919 -2.494999886 -15.624910016
C 24 -6.071850300 0.000000000 5.624757806
C 26 -2.023950100 0.000000000 5.624757806
C 28 -4.286402584 -0.000000000 -12.589102506
C 30 -6.230851809 -0.000000000 -6.517815410
C 32 -0.079500634 0.000000000 -0.446529291
cat file 2
O 34 -1.393125174 -0.640765928 -5.738276269
O 36 -3.337574640 -0.640765928 0.333010828
O 38 -2.524270589 1.854234106 -14.845370570
O 40 -5.282024106 -0.640765928 6.404297925
O 42 -2.182951850 1.281531856 -6.517815410
O 44 -4.127401075 1.281531856 -0.446529291
O 46 -3.314258919 -1.213468178 -15.624910016
O 48 -6.071850300 1.281531856 5.624757806
O 50 -2.972778044 -0.640765928 -7.297355528
O 52 -4.917227269 -0.640765928 -1.226068432
O 54 -4.104085113 1.854234106 -16.404449463
O 56 -6.861676614 -0.640765928 4.845217687
O 58 -2.813776294 0.640765779 4.845217687
O 60 -5.076228778 0.640765779 -13.368642136
O 62 -7.020678123 0.640765779 -7.297355528
O 64 -0.869326828 0.640765779 -1.226068432
O 66 -2.023950100 -1.281531708 5.624757806
O 68 -4.286402584 -1.281531708 -12.589102506
O 70 -6.230851809 -1.281531708 -6.517815410
O 72 -0.079500634 -1.281531708 -0.446529291
O 74 -1.234123906 0.640765779 6.404297925
O 76 -3.496576390 0.640765779 -11.809563365
O 78 -5.441025615 0.640765779 -5.738276269
O 80 0.710325077 0.640765779 0.333010828
C18后面必须跟O34、O42和O50。然后是C20,然后是O36、O44和O52,依此类推:
cat file 3
C 18 -2.182951850 -0.000000000 -6.517815410
O 34 -1.393125174 -0.640765928 -5.738276269
O 42 -2.182951850 1.281531856 -6.517815410
O 50 -2.972778044 -0.640765928 -7.297355528
C 20 -4.127401075 0.000000000 -0.446529291
O 36 -3.337574640 -0.640765928 0.333010828
O 44 -4.127401075 1.281531856 -0.446529291
O 52 -4.917227269 -0.640765928 -1.226068432
.. .. ............ ............. .........
Tom代码生成的输出如下所示:
Tom output
C 18 -2.182951850 -0.000000000 -6.517815410
O 34 -1.393125174 -0.640765928 -5.738276269
O 42 -2.182951850 1.281531856 -6.517815410
O 50 -2.972778044 -0.640765928 -7.297355528
O 58 -2.813776294 0.640765779 4.845217687
O 66 -2.023950100 -1.281531708 5.624757806
O 74 -1.234123906 0.640765779 6.404297925
C 20 -4.127401075 0.000000000 -0.446529291
O 36 -3.337574640 -0.640765928 0.333010828
O 44 -4.127401075 1.281531856 -0.446529291
O 52 -4.917227269 -0.640765928 -1.226068432
O 60 -5.076228778 0.640765779 -13.368642136
O 68 -4.286402584 -1.281531708 -12.589102506
O 76 -3.496576390 0.640765779 -11.809563365
C 22 -3.314258919 -2.494999886 -15.624910016
O 38 -2.524270589 1.854234106 -14.845370570
O 46 -3.314258919 -1.213468178 -15.624910016
O 54 -4.104085113 1.854234106 -16.404449463
O 62 -7.020678123 0.640765779 -7.297355528
O 70 -6.230851809 -1.281531708 -6.517815410
O 78 -5.441025615 0.640765779 -5.738276269
and so on
有什么建议吗
谢谢我建议您使用awk来完成以下操作:
# first file
NR == FNR {
a[NR] = $0 # save each line into array
++len
next # skip further blocks
}
{ b[FNR] = $0 } # save each line from 2nd file into array
END {
# loop through and print
for (i = 1; i <= len; ++i) {
print a[i]
for (j = i; j <= FNR; j += 4) print b[j]
}
}
#第一个文件
NR==FNR{
a[NR]=0美元#将每行保存到数组中
++莱恩
下一步#跳过更多块
}
{b[FNR]=$0}#将第二个文件中的每一行保存到数组中
结束{
#循环打印
对于(i=1;i您所描述的(通过评论中的确认)是一种模式
- 由一条C线组成
- 对一组九条O线进行采样,从一条与C线具有相同偏移的线开始
为了处理这个问题,我将使用带有9行“滑动窗口”的awk作为缓冲区
与其使用Tom的解决方案,将awk按顺序指向两个文件并将其中一个读入数组,我建议同时读取两个文件,这样就不会占用太多内存来保存数组
以下是我的意思,作为一行:
awk '{a[NR]=$0;delete a[NR-10];} NR>9{getline Cline < "fileC";print Cline;print a[NR-9]; print a[NR-5]; print a[NR-1];}' fileO
这就是你的意思吗?好的,这是一个很好的解决方案,但我已经在使用脚本,所以我可以在那里实现代码。很多感谢如果你是指一个shell脚本,并且你想内联运行awk脚本,你可以将这个脚本用引号括起来,并像awk'script'file1 file2
那样调用它。我做了awk-f$SCRIPTDIR/script.awk infile1 infire2>我的shell脚本中的outfile
看起来不错。一些一般建议,引用变量,不要使用大写变量名(因为它们可能与shell内部冲突):awk-f“$script\u dir/concat.awk”…
。我们在这里谈论的是多大?兆字节?千兆字节?超过了内存容量,例如?而且…C1匹配O1,C3匹配O3…可能C3后面的行匹配O5,后面的行匹配O7。之后会发生什么?或者只有四次迭代吗?@ghoti它们很大,但没有千兆字节那么多s、 序列显示在问题的编辑部分…您的编辑没有回答初始模式用尽后会发生什么的问题。您描述的模式只支持四次迭代,因为对于以C26开始的集合,您已经使用了O42。或者我们重复O42以使其成为问题的一部分新的集合?还是我们跳到前面,让C26后面跟着O58?@ghoti好的,很抱歉,所有的“C”行都会重复迭代,并与其相关的“O”行进行耦合。我不知道到底有多少行“C”这将是因为它取决于我的初始设置。如果你计算,模式是:第一个C行与第一个O行一起,然后是O第四行,然后是第九个O行(中间有3行);下一个第二个C行与第二个O行一起,然后是第五个O行,然后是第十行……等等。我希望现在能弄清楚。非常感谢
awk '
{
a[NR]=$0; # Store our current "O" line in an array
delete a[NR-10]; # Clean the array as we step through the file
}
NR>9 {
getline Cline < "fileC"; # Get the next "C" line...
print Cline; # ... and print it
print a[NR-9]; # \
print a[NR-5]; # > Print the three "O" lines for this
print a[NR-1]; # /
}
' fileO
C 18 -2.182951850 -0.000000000 -6.517815410
O 34 -1.393125174 -0.640765928 -5.738276269
O 42 -2.182951850 1.281531856 -6.517815410
O 50 -2.972778044 -0.640765928 -7.297355528
C 20 -4.127401075 0.000000000 -0.446529291
O 36 -3.337574640 -0.640765928 0.333010828
O 44 -4.127401075 1.281531856 -0.446529291
O 52 -4.917227269 -0.640765928 -1.226068432
C 22 -3.314258919 -2.494999886 -15.624910016
O 38 -2.524270589 1.854234106 -14.845370570
O 46 -3.314258919 -1.213468178 -15.624910016
O 54 -4.104085113 1.854234106 -16.404449463
C 24 -6.071850300 0.000000000 5.624757806
O 40 -5.282024106 -0.640765928 6.404297925
O 48 -6.071850300 1.281531856 5.624757806
O 56 -6.861676614 -0.640765928 4.845217687
C 26 -2.023950100 0.000000000 5.624757806
O 42 -2.182951850 1.281531856 -6.517815410
O 50 -2.972778044 -0.640765928 -7.297355528
O 58 -2.813776294 0.640765779 4.845217687
C 28 -4.286402584 -0.000000000 -12.589102506
O 44 -4.127401075 1.281531856 -0.446529291
O 52 -4.917227269 -0.640765928 -1.226068432
O 60 -5.076228778 0.640765779 -13.368642136
C 30 -6.230851809 -0.000000000 -6.517815410
O 46 -3.314258919 -1.213468178 -15.624910016
O 54 -4.104085113 1.854234106 -16.404449463
O 62 -7.020678123 0.640765779 -7.297355528
C 32 -0.079500634 0.000000000 -0.446529291
O 48 -6.071850300 1.281531856 5.624757806
O 56 -6.861676614 -0.640765928 4.845217687
O 64 -0.869326828 0.640765779 -1.226068432
C 32 -0.079500634 0.000000000 -0.446529291
O 50 -2.972778044 -0.640765928 -7.297355528
O 58 -2.813776294 0.640765779 4.845217687
O 66 -2.023950100 -1.281531708 5.624757806
C 32 -0.079500634 0.000000000 -0.446529291
O 52 -4.917227269 -0.640765928 -1.226068432
O 60 -5.076228778 0.640765779 -13.368642136
O 68 -4.286402584 -1.281531708 -12.589102506
C 32 -0.079500634 0.000000000 -0.446529291
O 54 -4.104085113 1.854234106 -16.404449463
O 62 -7.020678123 0.640765779 -7.297355528
O 70 -6.230851809 -1.281531708 -6.517815410
C 32 -0.079500634 0.000000000 -0.446529291
O 56 -6.861676614 -0.640765928 4.845217687
O 64 -0.869326828 0.640765779 -1.226068432
O 72 -0.079500634 -1.281531708 -0.446529291
C 32 -0.079500634 0.000000000 -0.446529291
O 58 -2.813776294 0.640765779 4.845217687
O 66 -2.023950100 -1.281531708 5.624757806
O 74 -1.234123906 0.640765779 6.404297925
C 32 -0.079500634 0.000000000 -0.446529291
O 60 -5.076228778 0.640765779 -13.368642136
O 68 -4.286402584 -1.281531708 -12.589102506
O 76 -3.496576390 0.640765779 -11.809563365
C 32 -0.079500634 0.000000000 -0.446529291
O 62 -7.020678123 0.640765779 -7.297355528
O 70 -6.230851809 -1.281531708 -6.517815410
O 78 -5.441025615 0.640765779 -5.738276269