Logstash RSS提要(重复数据消除和提取某些数据)

Logstash RSS提要(重复数据消除和提取某些数据),rss,logstash,kibana,Rss,Logstash,Kibana,我试图从RSS提要中提取信息。我遇到了两个问题 第一个是每次达到Logstash间隔时,我都会得到重复的条目,当前设置为5分钟。处理这个问题的最佳方法是什么 第二,我不确定从每个提要条目中获取特定数据的最佳方法,因为我不需要所有信息。我试过测试grok,但我不确定这是最好的选择 我在下面的提要中包含了一个示例条目: c84d547d76dcfce40ded583da665861a6fcdced426214dd78f6f62b07d7c4c5d-2019-02-18 15:00:52-EPZCHL

我试图从RSS提要中提取信息。我遇到了两个问题

  • 第一个是每次达到Logstash间隔时,我都会得到重复的条目,当前设置为5分钟。处理这个问题的最佳方法是什么

  • 第二,我不确定从每个提要条目中获取特定数据的最佳方法,因为我不需要所有信息。我试过测试grok,但我不确定这是最好的选择

  • 我在下面的提要中包含了一个示例条目: c84d547d76dcfce40ded583da665861a6fcdced426214dd78f6f62b07d7c4c5d-2019-02-18 15:00:52-EPZCHLTUWDGK-notification.subject 2019年2月18日星期一15:00:52+0000 md5:B1D723B18E879B4F6D350995C413890 sha1:03EBE11CB413CA1502290644CDF628C708E666C sha256:0b3a0f9282bbb91d5d7770ec4cf392bb0c69da9074ecba6b464ec1a3868ad840 尺寸:1357312 类型:Win32 EXE 正面:49 总数:65 首次提交:2019-02-1814:53:18 最后提交时间:2019-02-1814:53:18 扫描:数据 规则集:EPZCHLTUWDGK 规则:宙斯v1 匹配:
    id:5374337132199936

    最终利用python中的JSON模块来处理这个问题。还使用数据中的一个字段作为键来比较将来进入提要的项,如果该键存在,则可以忽略它