Hadoop 文件传输到HDFS

Hadoop 文件传输到HDFS,hadoop,apache-kafka,flume,Hadoop,Apache Kafka,Flume,我需要将文件(zip、csv、xml等)从windows共享位置带到HDFS。哪种方法最好?我脑子里有卡夫卡-水槽-hdfs。请提出有效的方法 我试着把文件交给卡夫卡消费者 制作人发送( 新产品记录(主题名称、关键字、值) 期待一种有效的方法卡夫卡不是设计用来发送文件的,默认情况下,它只发送高达1MB的单个消息 您可以在Hadoop中安装NFS网关,然后您应该能够直接从windows共享复制到HDFS,而无需任何流媒体技术,只需在windows计算机上运行计划脚本,或者从外部运行 或者,您可以在

我需要将文件(zip、csv、xml等)从windows共享位置带到HDFS。哪种方法最好?我脑子里有卡夫卡-水槽-hdfs。请提出有效的方法

我试着把文件交给卡夫卡消费者

制作人发送( 新产品记录(主题名称、关键字、值)


期待一种有效的方法

卡夫卡不是设计用来发送文件的,默认情况下,它只发送高达1MB的单个消息

您可以在Hadoop中安装NFS网关,然后您应该能够直接从windows共享复制到HDFS,而无需任何流媒体技术,只需在windows计算机上运行计划脚本,或者从外部运行

或者,您可以在某个Hadoop节点上装载windows共享,并在需要连续文件传递时安排Cron作业-

我见过的其他解决方案使用Nifi/StreamSet等工具,可用于读取/移动文件

谢谢您提供的信息。实际上,我正在拆分文件并将其作为bytearray发送给kafka。然后在consumer端,我将这些字节数组转换为字符串,然后写入文件。这样,我将文件从windows共享传输到kafka consumer。现在我的任务是将这些文件传输到HDFS。如果我前面的问题有点混乱,请原谅sing。请建议。只要您只有一个主题分区,并且没有同时向同一主题发送多个文件,这可能会起作用,但否则您不能保证您的文件以相同的顺序重新拆分