Hadoop 直接从网站向hdfs获取数据_Hadoop_Server_Hdfs_Flume

Hadoop 直接从网站向hdfs获取数据

hadoop server

Hadoop 直接从网站向hdfs获取数据,hadoop,server,hdfs,flume,Hadoop,Server,Hdfs,Flume,如何直接获取在hdfs上同时进入网站的数据？如果您计划进行高可用性读写，则可以使用Hbase存储数据如果您使用的是REST API，则可以将数据直接存储到Hbase，因为它有专用的Hbase REST API，可以存储到Hbase表中 1）线性和模块化的可扩展性。 2）严格一致的读写。 3）自动和可配置的表分片有关HBase的更多信息：否则，如果您希望从任何来源将一些流式数据传输到HDFS中，您可以查看confluent platform（内置kafka）并将其存储到HDFS中。这完

如何直接获取在hdfs上同时进入网站的数据？

如果您计划进行高可用性读写，则可以使用Hbase存储数据

如果您使用的是REST API，则可以将数据直接存储到Hbase，因为它有专用的Hbase REST API，可以存储到Hbase表中

1）线性和模块化的可扩展性。 2）严格一致的读写。 3）自动和可配置的表分片

有关HBase的更多信息：

否则，如果您希望从任何来源将一些流式数据传输到HDFS中，您可以查看confluent platform（内置kafka）并将其存储到HDFS中。

这完全取决于您拥有的数据以及您是否愿意在Hadoop上维护额外的工具

如果您只是从日志文件接受事件，Flume、Fluentd或Filebeat是您的最佳选择

如果您正在接受客户端事件，例如单击或鼠标移动，那么您需要一些后端服务器来接受这些请求。例如，Flume TCP源，但您可能希望在该服务前面有某种类型的身份验证端点，以防止向事件通道发送随机外部消息

你也可以用卡夫卡。Kafka REST代理（通过Confluent）可用于接受REST请求并生成一个Kafka主题。Kafka HDFS Connect（也通过Confluent）可以使用来自Kafka的消息，并以近乎实时的方式将消息发布到HDFS，就像Flume一样

其他选项包括apachenifi或streamset。同样，使用带有HDFS目标处理器的TCP或HTTP事件源侦听器

我认为您误解了这个问题。而不是如何从Hadoop获取数据到网站上。但是从一个网站到HDFS。Confluent不提供用于网站操作的Javascript驱动程序，Kafka也不应公开于公共互联网。我想我提到了Hbase，用于将网站数据保存到HDFS。什么类型的数据？你已经标记了水槽。。。你之前的所有问题都包括水槽。。。怎么了？你尝试了什么？请在您的问题中包含更多详细信息。。。