Apache nifi 如何在NiFi中分割/拆分文件以获取小片段?

Apache nifi 如何在NiFi中分割/拆分文件以获取小片段?,apache-nifi,Apache Nifi,晚安 我有5个文件 [azureuser@ibpoccloudera output]$ pwd /home/azureuser/logs_auditoria/output [azureuser@ibpoccloudera output]$ ls -lrth total 5.1G -rw-r--r-- 1 nifi nifi 1.2G Oct 6 00:38 auditoria_20200928.txt -rw-r--r-- 1 nifi nifi 433M Oct 6 00:38 audit

晚安

我有5个文件

[azureuser@ibpoccloudera output]$ pwd
/home/azureuser/logs_auditoria/output
[azureuser@ibpoccloudera output]$ ls -lrth
total 5.1G
-rw-r--r-- 1 nifi nifi 1.2G Oct  6 00:38 auditoria_20200928.txt
-rw-r--r-- 1 nifi nifi 433M Oct  6 00:38 auditoria_20200927.txt
-rw-r--r-- 1 nifi nifi 1.5G Oct  6 00:38 auditoria_20200929.txt
-rw-r--r-- 1 nifi nifi 1.6G Oct  6 00:38 auditoria_20200925.txt
-rw-r--r-- 1 nifi nifi 427M Oct  6 00:38 auditoria_20200926.txt
我想把它们分成小块,然后用NiFi把它放到另一个目录中。我使用这个处理器:

Getfile->SegmentContent->Putfile

GetFile

细分内容

PutFile

但是当我检查我的输出目录(PutFile)时,我得到了最后一个片段,它为我提供了片段内容

有任何选项可以获得类似linux split的东西

[azureuser@ibpoccloudera output]$ split -b 524288000 auditoria_20200929.txt auditoria_20200929

[azureuser@ibpoccloudera output]$ ls -lrth
total 6.5G
-rw-r--r-- 1 nifi      nifi      1.2G Oct  6 00:38 auditoria_20200928.txt
-rw-r--r-- 1 nifi      nifi      433M Oct  6 00:38 auditoria_20200927.txt
-rw-r--r-- 1 nifi      nifi      1.5G Oct  6 00:38 auditoria_20200929.txt
-rw-r--r-- 1 nifi      nifi      1.6G Oct  6 00:38 auditoria_20200925.txt
-rw-r--r-- 1 nifi      nifi      427M Oct  6 00:38 auditoria_20200926.txt
-rw-rw-r-- 1 azureuser azureuser 500M Oct  6 00:54 auditoria_20200929aa
-rw-rw-r-- 1 azureuser azureuser 500M Oct  6 00:55 auditoria_20200929ab
-rw-rw-r-- 1 azureuser azureuser 500M Oct  6 00:55 auditoria_20200929ac
-rw-rw-r-- 1 azureuser azureuser  14M Oct  6 00:55 auditoria_20200929ad


我使用SplitText和UpdateAttribute解决了这个问题

我使用SplitText是因为我有一个json文件,所以如果我使用SegmentContent,有时会y剪切一条记录并出错

使用UpdateAttribute,我通过UUID更改文件名,因此我非常确定没有任何重复记录

拆分文本

升级属性

您是否自动终止来自内容处理器的“原始”输出?