麋鹿与卡夫卡和Hadoop

麋鹿与卡夫卡和Hadoop,hadoop,apache-kafka,elastic-stack,Hadoop,Apache Kafka,Elastic Stack,我不擅长“大数据”: 我的场景是两个EC2实例,而不是生成日志 这些日志基本上是系统日志和应用程序事件(自定义日志) 我想使用麋鹿堆栈来捕获日志、应用过滤器和显示数据 在某些情况下,我希望将自定义事件发送到专用队列系统(rabbitMQ)以处理数据(推荐引擎) 我的问题是,如果基本上我只想用24小时保留解析日志,并使用Debian的日志旋转功能移动日志,为什么我应该使用Kafka和Hadoop之类的工具 非常感谢你的帮助!对不起,我的英语不好^ ^如果有人感兴趣,我可以这样解决: 1-我选择使用

我不擅长“大数据”:

我的场景是两个EC2实例,而不是生成日志

这些日志基本上是系统日志和应用程序事件(自定义日志)

我想使用麋鹿堆栈来捕获日志、应用过滤器和显示数据

在某些情况下,我希望将自定义事件发送到专用队列系统(rabbitMQ)以处理数据(推荐引擎)

我的问题是,如果基本上我只想用24小时保留解析日志,并使用Debian的日志旋转功能移动日志,为什么我应该使用Kafka和Hadoop之类的工具


非常感谢你的帮助!对不起,我的英语不好^ ^

如果有人感兴趣,我可以这样解决:

1-我选择使用一个Cloud Watch服务来代替使用默认的log rotate,基本上它从EC2获取日志并将它们存储在云中

2-对于将数据推送到Logstash,我使用了Lambda服务,基本上它是一个可以执行Java、Javascript(Nodejs)或Python代码的环境。它从CloudWatch获取流式数据流,我选择通过一个小的Nodejs脚本将日志存储在S3上


3-Logstash实例直接使用S3中的日志,为此有一个插件输入。

听起来你不需要Kafka或Hadoop来将数据导入ELK部分。Logstash有一些插件可以将数据从syslog获取到ES中。很抱歉,这个问题似乎很愚蠢,但在所有教程中,我见过他们在ELK stack前面使用Hadoop或Kafka。点对点集成不需要Kafka,但大多数人都会使用它来为多个下游接收器提供数据,同时用它代替RabbitMQ来为推荐引擎提供数据。