Hadoop 从';近实时';论大数据平台

Hadoop 从';近实时';论大数据平台,hadoop,bigdata,apache-nifi,Hadoop,Bigdata,Apache Nifi,我有一个用例,第一步是将来自新闻API或新闻聚合器API的数据摄取到HDFS中。该数据提取以NRT为基础进行(比如每15分钟一次) 目前我正在研究两种方法: 基于Python的解决方案(目前,它不是通用代码) 基于ApacheNIFI的框架(但NiFi在Hortonworks以外的其他发行版上似乎存在一些兼容性问题) 对于一种独立于平台、可跨不同Hadoop发行版(Cloudera、HW等)使用的方法,如果没有更多的建议,那就太好了 谢谢。ApacheNIFI绝对可以处理您的进程,它在Windo

我有一个用例,第一步是将来自新闻API或新闻聚合器API的数据摄取到HDFS中。该数据提取以NRT为基础进行(比如每15分钟一次) 目前我正在研究两种方法:

  • 基于Python的解决方案(目前,它不是通用代码)
  • 基于ApacheNIFI的框架(但NiFi在Hortonworks以外的其他发行版上似乎存在一些兼容性问题)
  • 对于一种独立于平台、可跨不同Hadoop发行版(Cloudera、HW等)使用的方法,如果没有更多的建议,那就太好了


    谢谢。

    ApacheNIFI绝对可以处理您的进程,它在Windows、MacOS和大多数Linux发行版上运行良好(我在Ubuntu、Redhat、CentOS、AmazonLinux和Raspbian上运行过)。它不需要Hadoop,但可以与Hortonworks或Cloudera Hadoop发行版一起使用

    我用NiFi构建了一个RSS查看器,它使用->->获取、提取RSS并将其保存到磁盘。
    然后NiFi侦听浏览器请求,并使用->->->将RSS作为HTML表返回。

    感谢您的回复。我们测试了一种NiFi溶液。我们发现的限制之一是web api可以以任何格式(json、xml等)发送信息。在这种情况下,我们打算使用聚合器(转换器)将数据恢复为一致的指定格式(比如Json)。也可能存在API响应可能是部分响应的情况。因此,我们正在实施一个更稳健的系统,以消除这些顾虑。一定要分享你的想法。