Pandas 将ETL作业迁移到Hadoop_Pandas_Hadoop_Hive_Etl

Pandas 将ETL作业迁移到Hadoop

pandas hadoop hive

Pandas 将ETL作业迁移到Hadoop,pandas,hadoop,hive,etl,Pandas,Hadoop,Hive,Etl,我有一组ETL（在informatica中创建）作业，我想将它们迁移到Hadoop。我已经在hadoop环境中创建了源表和目标表。现在我可以编写一个配置单元查询来实现ETL的逻辑，ETL从源表提取数据并写入目标表。但这是一个漫长的过程，因为我的ETL工作很复杂（具有复杂的业务逻辑），开发和测试这些查询需要更长的时间。我想知道是否有更好的方法将我的ETL代码迁移到Hadoop？我听说我们可以用熊猫数据框代替蜂巢。有什么建议吗？没有，熊猫不是蜂巢的替代品。您可以使用Spark Dataframes，

我有一组ETL（在informatica中创建）作业，我想将它们迁移到Hadoop。我已经在hadoop环境中创建了源表和目标表。现在我可以编写一个配置单元查询来实现ETL的逻辑，ETL从源表提取数据并写入目标表。但这是一个漫长的过程，因为我的ETL工作很复杂（具有复杂的业务逻辑），开发和测试这些查询需要更长的时间。我想知道是否有更好的方法将我的ETL代码迁移到Hadoop？我听说我们可以用熊猫数据框代替蜂巢。有什么建议吗？

没有，熊猫不是蜂巢的替代品。您可以使用Spark Dataframes，但是您仍然需要使用Python API（pySpark）将数据获取到HDFSSpark，pandas可以为您做[几乎]一切事情。当您从ETL工具迁移时，几乎没有什么代码可以提升和转换。无论您选择哪种技术，大多数代码都必须重新编写。因此，开发和测试成本可能是相似的。您是否考虑过使用Informatca的大数据产品？在这种情况下，您只需更换目标。我正在从Informatica中删除依赖项。不，熊猫不是蜂巢的替代品。您可以使用Spark Dataframes，但是您仍然需要使用Python API（pySpark）将数据获取到HDFSSpark，pandas可以为您做[几乎]一切事情。当您从ETL工具迁移时，几乎没有什么代码可以提升和转换。无论您选择哪种技术，大多数代码都必须重新编写。因此，开发和测试成本可能是相似的。您是否考虑过使用Informatca的大数据产品？在这种情况下，您只需替换目标。我正在从Informatica中删除依赖项。