如何配置Flume conf以使用regex_提取器解析源代码_Regex_Hadoop_Flume

如何配置Flume conf以使用regex_提取器解析源代码

regex hadoop

如何配置Flume conf以使用regex_提取器解析源代码,regex,hadoop,flume,Regex,Hadoop,Flume,我刚从水槽开始。试图找出如何使用拦截器regex_extract从源日志文件中提取字段。然而，无论我在conf文件中设置了什么，在源和接收器之间，日志文件似乎不会改变。有人有什么想法吗？只是试着从源中的1，a，b，c转换到接收器中的1 源文件只是在1，a，b，c，d的测试结构中，但始终以1，a，b，c，d的形式在spooldir2中输出 a1.sources = fs1 a1.sinks = hdfs-sink a1.channels = parse a1.sources.fs1.t

我刚从水槽开始。试图找出如何使用拦截器regex_extract从源日志文件中提取字段。然而，无论我在conf文件中设置了什么，在源和接收器之间，日志文件似乎不会改变。有人有什么想法吗？只是试着从源中的1，a，b，c转换到接收器中的1

源文件只是在1，a，b，c，d的测试结构中，但始终以1，a，b，c，d的形式在spooldir2中输出

a1.sources = fs1 
a1.sinks = hdfs-sink  
a1.channels = parse  

a1.sources.fs1.type = spooldir  
a1.sources.fs1.spoolDir = /tmp/spooldir  
a1.sources.fs1.fileHeader = true  

a1.sources.fs1.interceptors = i1  
a1.sources.fs1.interceptors.i1.type = regex_extractor  
a1.sources.fs1.interceptors.i1.regex = ^(\\d)  
a1.sources.fs1.interceptors.i1.serializers = s1  
a1.sources.fs1.interceptors.i1.serializers.s1.name = extracted  

a1.sinks.hdfs-sink.type = file_roll  
a1.sinks.hdfs-sink.sink.directory = /tmp/spooldir2  

a1.channels.parse.type = memory  
a1.channels.parse.capacity = 1000  
a1.channels.parse.transactionCapacity = 100  

a1.sources.fs1.channels = parse  
a1.sinks.hdfs-sink.channel = parse