Apache 使用NiFi删除CSV文件中的空行

Apache 使用NiFi删除CSV文件中的空行,apache,apache-nifi,Apache,Apache Nifi,我想实现一个简单的用例来删除CSV文件中的任何空行。如何使用NiFi实现这一点 我有如下CSV文件:(请参见附件中显示需要删除哪一行的屏幕截图) 我想使用NiFi删除csv标题上方的第一个空行。请,任何建议都将不胜感激。谢谢大家! 您可以使用ReplaceText处理器将\a\n |\n*\s*(?=\n)替换为'(空替换值)。搜索正则表达式将查找: \A\n-内容的开头紧接着换行符或 \n*\s*(?=\n)-换行符(0或更多),后跟空格(0或更多),后跟换行符(不使用先行组捕获) 更新

我想实现一个简单的用例来删除CSV文件中的任何空行。如何使用NiFi实现这一点

我有如下CSV文件:(请参见附件中显示需要删除哪一行的屏幕截图)


我想使用NiFi删除csv标题上方的第一个空行。请,任何建议都将不胜感激。谢谢大家!

您可以使用
ReplaceText
处理器将
\a\n |\n*\s*(?=\n)
替换为
'
(空替换值)。搜索正则表达式将查找:

  • \A\n
    -内容的开头紧接着换行符或
  • \n*\s*(?=\n)
    -换行符(0或更多),后跟空格(0或更多),后跟换行符(不使用先行组捕获)
更新

不知道为什么这被否决了,或者对某些用户不起作用,正如我刚才所说的,它完全按照描述的那样起作用


您可以使用
ReplaceText
处理器将
\a\n |\n*\s*(?=\n)
替换为
'
(空替换值)。搜索正则表达式将查找:

  • \A\n
    -内容的开头紧接着换行符或
  • \n*\s*(?=\n)
    -换行符(0或更多),后跟空格(0或更多),后跟换行符(不使用先行组捕获)
更新

不知道为什么这被否决了,或者对某些用户不起作用,正如我刚才所说的,它完全按照描述的那样起作用


这与ReGEX有什么关系?@ EMSPNSON92在NiFi中,您可以使用ReGEX或任何其他方式来删除空白行。我想知道实现我的用例的方法。请编辑您的问题并提供流程文件的文本。是否只有第一行空?@ DigGutt我想删除CSV的第一行,请看附加的屏幕截图。这与ReGEX有什么关系?@ EMSPNSON92在NiFi中,您可以使用ReGEX或任何其他方式删除空白行。我想知道实现我的用例的方法。请编辑您的问题并提供流程文件的文本。只有第一行是空的吗?@daggett我想删除CSV的第一行,请查看附加的屏幕截图。它失败了。你能提供更多细节吗?比如,替换策略是什么?我提供了一个模板、配置和流统计的屏幕截图,以及验证其有效性的日志输出。如果这导致您失败,您的“空白”行上可能还有其他字符。请提供纯文本格式的CSV文件,而不是Excel中的屏幕截图。感谢您的详细解释。它失败了。你能提供更多细节吗?比如,替换策略是什么?我提供了一个模板、配置和流统计的屏幕截图,以及验证其有效性的日志输出。如果这导致您失败,您的“空白”行上可能还有其他字符。请提供纯文本格式的CSV文件,而不是Excel中的屏幕截图。感谢您的详细解释。
2019-01-08 12:25:27,642 INFO [Timer-Driven Process Thread-2] o.a.n.processors.standard.LogAttribute LogAttribute[id=2f22d047-0168-1000-47b0-9ec963e65367] logging for flow file StandardFlowFileRecord[uuid=6c9cc388-19c8-4b98-9970-6a6e3979e4ee,claim=StandardContentClaim [resourceClaim=StandardResourceClaim[id=1546979126561-1, container=default, section=1], offset=152, length=50],offset=0,name=6c9cc388-19c8-4b98-9970-6a6e3979e4ee,size=50]
--------------------------------------------------
Standard FlowFile Attributes
Key: 'entryDate'
    Value: 'Tue Jan 08 12:25:27 PST 2019'
Key: 'lineageStartDate'
    Value: 'Tue Jan 08 12:25:27 PST 2019'
Key: 'fileSize'
    Value: '50'
FlowFile Attribute Map Content
Key: 'filename'
    Value: '6c9cc388-19c8-4b98-9970-6a6e3979e4ee'
Key: 'path'
    Value: './'
Key: 'uuid'
    Value: '6c9cc388-19c8-4b98-9970-6a6e3979e4ee'
--------------------------------------------------
header1,header2,header3
A1,A2,A3
B1,B2,B3
C1,C2,C3