Hadoop 直接从网站向hdfs获取数据

Hadoop 直接从网站向hdfs获取数据,hadoop,server,hdfs,flume,Hadoop,Server,Hdfs,Flume,如何直接获取在hdfs上同时进入网站的数据?如果您计划进行高可用性读写,则可以使用Hbase存储数据 如果您使用的是REST API,则可以将数据直接存储到Hbase,因为它有专用的Hbase REST API,可以存储到Hbase表中 1) 线性和模块化的可扩展性。 2) 严格一致的读写。 3) 自动和可配置的表分片 有关HBase的更多信息: 否则,如果您希望从任何来源将一些流式数据传输到HDFS中,您可以查看confluent platform(内置kafka)并将其存储到HDFS中。这完

如何直接获取在hdfs上同时进入网站的数据?

如果您计划进行高可用性读写,则可以使用Hbase存储数据

如果您使用的是REST API,则可以将数据直接存储到Hbase,因为它有专用的Hbase REST API,可以存储到Hbase表中

1) 线性和模块化的可扩展性。 2) 严格一致的读写。 3) 自动和可配置的表分片

有关HBase的更多信息:

否则,如果您希望从任何来源将一些流式数据传输到HDFS中,您可以查看confluent platform(内置kafka)并将其存储到HDFS中。

这完全取决于您拥有的数据以及您是否愿意在Hadoop上维护额外的工具

如果您只是从日志文件接受事件,Flume、Fluentd或Filebeat是您的最佳选择

如果您正在接受客户端事件,例如单击或鼠标移动,那么您需要一些后端服务器来接受这些请求。例如,Flume TCP源,但您可能希望在该服务前面有某种类型的身份验证端点,以防止向事件通道发送随机外部消息

你也可以用卡夫卡。Kafka REST代理(通过Confluent)可用于接受REST请求并生成一个Kafka主题。Kafka HDFS Connect(也通过Confluent)可以使用来自Kafka的消息,并以近乎实时的方式将消息发布到HDFS,就像Flume一样


其他选项包括apachenifi或streamset。同样,使用带有HDFS目标处理器的TCP或HTTP事件源侦听器

我认为您误解了这个问题。而不是如何从Hadoop获取数据到网站上。但是从一个网站到HDFS。Confluent不提供用于网站操作的Javascript驱动程序,Kafka也不应公开于公共互联网。我想我提到了Hbase,用于将网站数据保存到HDFS。什么类型的数据?你已经标记了水槽。。。你之前的所有问题都包括水槽。。。怎么了?你尝试了什么?请在您的问题中包含更多详细信息。。。