Parsing AWK：递归下降CSV解析器_Parsing_Csv_Awk_Recursive Descent

Parsing AWK：递归下降CSV解析器

parsing csv awk

Parsing AWK：递归下降CSV解析器,parsing,csv,awk,recursive-descent,Parsing,Csv,Awk,Recursive Descent,为了响应，我（两篇文章中的一篇）尝试将其翻译成AWK脚本，以便与这些脚本语言进行数据处理的速度比较。由于一些缓解因素，转换不是1:1转换，但是对于那些感兴趣的人来说，这种实现在字符串处理方面比其他实现更快起初，由于乔纳森·莱夫勒，我们有几个问题都被驳回了。虽然标题是CSV，但我们已将代码更新为DSV，这意味着您可以在必要时指定任何单个字符作为字段分隔符这段代码现在可以决战了基本功能对输入长度、字段长度或字段计数没有强制限制通过双引号“ ANSI C转义序列如第1.1.2[1][2][

为了响应，我（两篇文章中的一篇）尝试将其翻译成AWK脚本，以便与这些脚本语言进行数据处理的速度比较。由于一些缓解因素，转换不是1:1转换，但是对于那些感兴趣的人来说，这种实现在字符串处理方面比其他实现更快

起初，由于乔纳森·莱夫勒，我们有几个问题都被驳回了。虽然标题是

CSV

，但我们已将代码更新为

DSV

，这意味着您可以在必要时指定任何单个字符作为字段分隔符

这段代码现在可以决战了

基本功能

对输入长度、字段长度或字段计数没有强制限制
通过双引号“
ANSI C转义序列如第1.1.2[1][2][3]节所述
自定义输入分隔符：（DSV）[4]
自定义输出分隔符[5]
UCS-2和UCS-4逃逸序列[6]

[1] 引用的字段是文字内容，因此不会对引用的内容执行转义序列解释。但是，可以在单个字段中连接引号、纯文本和解释的序列，以达到预期效果。例如：

one,two,three:\t"Little Endians," and one Big Endian Chief 通过以下方式支持32位Unicode转义序列：

\UHHHHHHHH Unicode character with hex value HHHHHHHH (8 digits) 如果您需要一些自定义输出控件分隔符，但不确定要使用什么，可以咨询

未来计划：

C库实现
C控制台应用程序实现
提交给可能的标准化

哲学

转义序列应始终用于在基于行的数据库中创建多行字段数据，引号应始终用于保留和连接记录字段内容。这是最简单的（因此也是最有效的）实现这种类型的记录解析器的方法。我鼓励所有软件开发人员和教育机构接受并宣称这一方向，以确保可移植性和精确获取基于行分隔符的记录

CSV没有正式的规范，除了，它没有定义任何有用的便携式记录类型。作为一名拥有超过15年经验的开发人员，我希望这将成为官方认可的便携式CSV/DSV记录标准。

原始版本的代码中有太多的空行，这使得它很难o阅读。修改后的代码减少了空行，阅读起来更容易；相关行以块形式排列，可以一起阅读。谢谢

awk

类似于C；它将0视为false，将任何非零视为true。因此，任何大于0的都是true，但任何小于0的都是true

在standard中没有直接打印到

stderr

的方法。GNU AWK记录了

print“message”>“/dev/stderr”

（名称为string！）的使用，这意味着它甚至可以在没有实际设备的系统上工作。在带有

/dev/stderr

设备的系统上，它也可以使用standard

AWK

处理数组中每个索引的

awk

习惯用法是（数组中的i）{…}，因为您有一个索引，

itmIndex

，告诉您数组中有多少项，所以您应该使用

for (i = 0; i < itmIndex; i++) { printf("%s%s", item[i], delim); }

您可以使用

-v var=value

将变量传递到脚本中（或省略

-v

）。请参阅前面列出的POSIX URL。

原始版本的代码中有太多的空行，这使其难以阅读。修改后的代码减少了空行，因此更易于阅读；相关行以块的形式排列，可以一起阅读。谢谢

awk