Pandas 将ETL作业迁移到Hadoop

Pandas 将ETL作业迁移到Hadoop,pandas,hadoop,hive,etl,Pandas,Hadoop,Hive,Etl,我有一组ETL(在informatica中创建)作业,我想将它们迁移到Hadoop。我已经在hadoop环境中创建了源表和目标表。现在我可以编写一个配置单元查询来实现ETL的逻辑,ETL从源表提取数据并写入目标表。但这是一个漫长的过程,因为我的ETL工作很复杂(具有复杂的业务逻辑),开发和测试这些查询需要更长的时间。我想知道是否有更好的方法将我的ETL代码迁移到Hadoop?我听说我们可以用熊猫数据框代替蜂巢。有什么建议吗?没有,熊猫不是蜂巢的替代品。您可以使用Spark Dataframes,

我有一组ETL(在informatica中创建)作业,我想将它们迁移到Hadoop。我已经在hadoop环境中创建了源表和目标表。现在我可以编写一个配置单元查询来实现ETL的逻辑,ETL从源表提取数据并写入目标表。但这是一个漫长的过程,因为我的ETL工作很复杂(具有复杂的业务逻辑),开发和测试这些查询需要更长的时间。我想知道是否有更好的方法将我的ETL代码迁移到Hadoop?我听说我们可以用熊猫数据框代替蜂巢。有什么建议吗?

没有,熊猫不是蜂巢的替代品。您可以使用Spark Dataframes,但是您仍然需要使用Python API(pySpark)将数据获取到HDFSSpark,pandas可以为您做[几乎]一切事情。当您从ETL工具迁移时,几乎没有什么代码可以提升和转换。无论您选择哪种技术,大多数代码都必须重新编写。因此,开发和测试成本可能是相似的。您是否考虑过使用Informatca的大数据产品?在这种情况下,您只需更换目标。我正在从Informatica中删除依赖项。不,熊猫不是蜂巢的替代品。您可以使用Spark Dataframes,但是您仍然需要使用Python API(pySpark)将数据获取到HDFSSpark,pandas可以为您做[几乎]一切事情。当您从ETL工具迁移时,几乎没有什么代码可以提升和转换。无论您选择哪种技术,大多数代码都必须重新编写。因此,开发和测试成本可能是相似的。您是否考虑过使用Informatca的大数据产品?在这种情况下,您只需替换目标。我正在从Informatica中删除依赖项。