Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/apache-kafka/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Hadoop数据摄取_Apache Spark_Apache Kafka_Apache Spark Sql_Sqoop - Fatal编程技术网

Apache spark Hadoop数据摄取

Apache spark Hadoop数据摄取,apache-spark,apache-kafka,apache-spark-sql,sqoop,Apache Spark,Apache Kafka,Apache Spark Sql,Sqoop,我有以下要求: 有一个上游系统在数据库表中创建一个键条目。该条目表示数据库表(oracle)中有一组数据可用。我们必须接收这些数据并将其保存为拼花文件。不需要处理数据。每次有新的密钥条目可用时,都应启动此摄取过程 对于这个问题陈述,我们计划使用一个数据库轮询器来轮询密钥条目。读取该条目后,我们需要从Oracle表中摄取数据。对于这种摄入目的,哪种工具最好?是卡夫卡、Sqoop、Spark SQL等吗。,?请帮忙 我们还需要接收csv文件。只有当一个文件被完全写入时,我们才能开始接收它。请让我知道

我有以下要求:

有一个上游系统在数据库表中创建一个键条目。该条目表示数据库表(oracle)中有一组数据可用。我们必须接收这些数据并将其保存为拼花文件。不需要处理数据。每次有新的密钥条目可用时,都应启动此摄取过程

对于这个问题陈述,我们计划使用一个数据库轮询器来轮询密钥条目。读取该条目后,我们需要从Oracle表中摄取数据。对于这种摄入目的,哪种工具最好?是卡夫卡、Sqoop、Spark SQL等吗。,?请帮忙


我们还需要接收csv文件。只有当一个文件被完全写入时,我们才能开始接收它。请让我知道如何执行此操作。

使用Sqoop,您可以从Hadoop文件系统中的数据库导入数据。

对于摄取关系数据,您可以使用Sqoop,对于您的场景,您可以查看

编写sqoop增量作业并使用cron对其进行调度,每次执行sqoop作业时,都会在hdfs中更新数据

对于.csv文件,可以使用flume。参考

感谢您的投入。你能解释一下为什么卡夫卡不行吗?此外,由于缺乏专业知识,我们希望使用单一技术从Oracle和csv文件中摄取数据。请帮忙。谢谢你的意见。你能解释一下为什么卡夫卡不行吗?此外,由于缺乏专业知识,我们希望使用单一技术从Oracle和csv文件中摄取数据。请帮忙。