Hadoop 用于收集系统日志数据的水槽

Hadoop 用于收集系统日志数据的水槽,hadoop,bigdata,router,syslog,flume,Hadoop,Bigdata,Router,Syslog,Flume,我正在尝试从10个设备路由器收集系统日志。我知道我可以使用syslog源代码,但需要澄清属性中的主机和端口。它们是否是运行flume代理的计算机上的本地端口。还有如何将系统日志重定向到flume正在侦听的端口。经典系统日志源基本上设计为连接到一个系统日志主机,即,您必须为10个系统日志服务器设置10个源。所有这些源都可以在一个代理中运行,并使用一个通道将其事件假脱机到一个接收器-但是,如果数据量很大,此设置将很快遇到性能问题。您必须配置路由器以连接到syslog主机/端口配置 更大的设置是为每个

我正在尝试从10个设备路由器收集系统日志。我知道我可以使用syslog源代码,但需要澄清属性中的主机和端口。它们是否是运行flume代理的计算机上的本地端口。还有如何将系统日志重定向到flume正在侦听的端口。

经典系统日志源基本上设计为连接到一个系统日志主机,即,您必须为10个系统日志服务器设置10个源。所有这些源都可以在一个代理中运行,并使用一个通道将其事件假脱机到一个接收器-但是,如果数据量很大,此设置将很快遇到性能问题。您必须配置路由器以连接到syslog主机/端口配置

更大的设置是为每个syslog服务器安装一个代理,并使用Avro sink/Avro Source将事件假脱机到一个或两个代理,然后再对事件进行排序并将其写入您想要的位置

您还可以使用更新的多端口Syslog TCP源,它生成多个端口。这允许更多路由器连接到一个系统日志源:

a1.sources = r1
a1.channels = c1
a1.sources.r1.type = multiport_syslogtcp
a1.sources.r1.channels = c1
a1.sources.r1.host = 0.0.0.0
a1.sources.r1.ports = 10001 10002 10003
a1.sources.r1.portHeader = port
在此配置中,syslog在代理上提供端口1000110002和10003。您可以将路由器配置为连接到代理的IP和这三个端口之一