Awk 将字段分隔符括在引号中_Awk

Awk 将字段分隔符括在引号中

awk

Awk 将字段分隔符括在引号中,awk,Awk,我们使用oracle的sqlldr加载由第三方创建的数据文件。数据文件大小不同，有些文件非常大数据文件的字段由分隔符分隔| 示例：字段1 |字段2 |字段3 |字段4 |字段5 字段3可以是：空的单值值1 |值2 |值3 如果字段3包含|，我需要用引号将其括起来我已经制作了一个shell脚本来实现这一点，但是它有点慢——处理一个47000000行的文件大约需要16分钟我想用awk来做，但我对语法不太熟悉，而且最后期限不允许学习/开发/调试在awk中是否会明显更快有简单的方法吗感

我们使用oracle的sqlldr加载由第三方创建的数据文件。数据文件大小不同，有些文件非常大

数据文件的字段由分隔符分隔|

示例：字段1 |字段2 |字段3 |字段4 |字段5

字段3可以是：

空的单值值1 |值2 |值3 如果字段3包含|，我需要用引号将其括起来

我已经制作了一个shell脚本来实现这一点，但是它有点慢——处理一个47000000行的文件大约需要16分钟

我想用awk来做，但我对语法不太熟悉，而且最后期限不允许学习/开发/调试

在awk中是否会明显更快

有简单的方法吗

感谢

给予：

$ cat file
field1|field2|field3|field4|field5
field1|field2||field4|field5
field1|field2|value1|value2|field4|field5
field1|field2|value1|value2|value3|field4|field5

您可以使用此awk：

awk  '  BEGIN{FS=OFS="|"}        # sep fields on |
        NF<=5{print; next}       # if there are <=5, we are done with line
        {s=$1 OFS $2 OFS "\""    # form first 2 fields + "
        # now loop through the extra fields adding to string after quote:
        for (i=3;i<=NF-5+3;i++) s=(i<NF-5+3) ? s $i OFS : s $i
        s=s "\"" OFS $(NF-5+4) OFS $(NF)   # finish the string
        print s                            # then print it
        }' file

是的，这将大大加快与awk相比，只是外壳

如果您想要一个单行程序，我会这样使用perl：

perl -F'[|]' -lpE  's/^([^|]+\|[^|]+\|)(.*)(\|[^|]+\|[^|]+)$/\1"\2"\3/ if scalar @F!=5' file

相同的输出。

给定：

$ cat file
field1|field2|field3|field4|field5
field1|field2||field4|field5
field1|field2|value1|value2|field4|field5
field1|field2|value1|value2|value3|field4|field5

您可以使用此awk：

awk  '  BEGIN{FS=OFS="|"}        # sep fields on |
        NF<=5{print; next}       # if there are <=5, we are done with line
        {s=$1 OFS $2 OFS "\""    # form first 2 fields + "
        # now loop through the extra fields adding to string after quote:
        for (i=3;i<=NF-5+3;i++) s=(i<NF-5+3) ? s $i OFS : s $i
        s=s "\"" OFS $(NF-5+4) OFS $(NF)   # finish the string
        print s                            # then print it
        }' file

是的，这将大大加快与awk相比，只是外壳

如果您想要一个单行程序，我会这样使用perl：

perl -F'[|]' -lpE  's/^([^|]+\|[^|]+\|)(.*)(\|[^|]+\|[^|]+)$/\1"\2"\3/ if scalar @F!=5' file

相同的输出。

使用Perl one liner，在47e6行上运行约1.5分钟：

perl -F'[|]' -lane '@first = splice @F, 0, 2; @last = splice @F, -2, 2; print join "|", @first, ( @F > 1 ? q{"} . ( join "|", @F ) . q{"} : @F ), @last;' in_file

输入：

field1|field2|field3|field4|field5
field1|field2||field4|field5
field1|field2|val1|val2|val3|field4|field5

输出：

field1|field2|"field3"|field4|field5
field1|field2|""|field4|field5
field1|field2|"val1|val2|val3"|field4|field5

Perl one liner使用以下命令行标志： -e：告诉Perl在线查找代码，而不是在文件中。 -n：一次循环输入一行，默认情况下将其分配给$。 -l：在行内执行代码之前，默认情况下在*NIX上去掉\n输入行分隔符，并在打印时附加它。 -a：将$拆分为空格上的数组@F或-F选项中指定的正则表达式上的数组@F。 -F'/[|]/'：在|上拆分为@F，而不是空格

另见：

基准：

平均运行时间为1分钟31秒。使用为darwin-thread-multi-2level构建的perl 5，版本30，subversion 3 v5.30.3，在MacBook Pro，macOS 10.14.6上运行，测量了3次。

使用此perl单行程序，在47e6行上运行约1.5分钟：

perl -F'[|]' -lane '@first = splice @F, 0, 2; @last = splice @F, -2, 2; print join "|", @first, ( @F > 1 ? q{"} . ( join "|", @F ) . q{"} : @F ), @last;' in_file

输入：

field1|field2|field3|field4|field5
field1|field2||field4|field5
field1|field2|val1|val2|val3|field4|field5

输出：

field1|field2|"field3"|field4|field5
field1|field2|""|field4|field5
field1|field2|"val1|val2|val3"|field4|field5

另见：

基准：

平均运行时间为1分钟31秒。使用perl 5，30版，subversion 3 v5.30.3，为darwin-thread-multi-2level构建，在MacBook Pro，macOS 10.14.6上运行，测量了3次。

在每个Unix机箱的任何shell中使用任何awk：

$ awk -F'|' 'NF>5{sub(/^([^|]*\|){2}/,"&\""); sub(/(\|[^|]*){2}$/,"\"&")} 1' file
field1|field2|field3|field4|field5
field1|field2||field4|field5
field1|field2|"value1|value2"|field4|field5
field1|field2|"value1|value2|value3"|field4|field5

备选方案：

使用具有-E的sed启用ERE，例如GNU和BSD/OSX sed：

$ sed -E 's/^(([^|]*\|){2})(.*\|.*)((\|[^|]*){2})/\1"\3"\4/' file
field1|field2|field3|field4|field5
field1|field2||field4|field5
field1|field2|"value1|value2"|field4|field5
field1|field2|"value1|value2|value3"|field4|field5

对于任何POSIX sed：

$ sed 's/^\(\([^|]*|\)\{2\}\)\(.*|.*\)\(\(|[^|]*\)\{2\}\)/\1"\3"\4/' file
field1|field2|field3|field4|field5
field1|field2||field4|field5
field1|field2|"value1|value2"|field4|field5
field1|field2|"value1|value2|value3"|field4|field5

GESUB的GNU awk：

$ awk '{$0=gensub(/^(([^|]*\|){2})(.*\|.*)((\|[^|]*){2})$/,"\\1\"\\3\"\\4",1)} 1' file
field1|field2|field3|field4|field5
field1|field2||field4|field5
field1|field2|"value1|value2"|field4|field5
field1|field2|"value1|value2|value3"|field4|field5

第三个参数要匹配的GNU awk：

$ awk 'match($0,/^(([^|]*\|){2})(.*\|.*)((\|[^|]*){2})$/,a){$0=a[1] "\"" a[3] "\"" a[4]} 1' file
field1|field2|field3|field4|field5
field1|field2||field4|field5
field1|field2|"value1|value2"|field4|field5
field1|field2|"value1|value2|value3"|field4|field5

以上是针对示例输入文件运行的：

在每个Unix设备上的任意shell中使用任意awk：

$ awk -F'|' 'NF>5{sub(/^([^|]*\|){2}/,"&\""); sub(/(\|[^|]*){2}$/,"\"&")} 1' file
field1|field2|field3|field4|field5
field1|field2||field4|field5
field1|field2|"value1|value2"|field4|field5
field1|field2|"value1|value2|value3"|field4|field5