使用Python的ETL
我正在研究一个数据仓库,并寻找一个使用Python的ETL解决方案。 我将SnapLogic作为ETL使用,但我想知道是否还有其他解决方案使用Python的ETL,python,data-warehouse,etl,Python,Data Warehouse,Etl,我正在研究一个数据仓库,并寻找一个使用Python的ETL解决方案。 我将SnapLogic作为ETL使用,但我想知道是否还有其他解决方案 这个数据仓库才刚刚开始。我还没有带来任何数据。它将很容易超过100 Gig,并带有我要加载到其中的初始数据子集。是的。只需使用DB-API接口将Python写入数据库即可 大多数ETL程序提供了花哨的“高级语言”或拖放GUI,这些都没有多大帮助 Python同样具有表现力,也同样易于使用 避免混淆。只需使用普通的老Python 我们每天都这样做,我们对结果非
这个数据仓库才刚刚开始。我还没有带来任何数据。它将很容易超过100 Gig,并带有我要加载到其中的初始数据子集。是的。只需使用DB-API接口将Python写入数据库即可 大多数ETL程序提供了花哨的“高级语言”或拖放GUI,这些都没有多大帮助 Python同样具有表现力,也同样易于使用 避免混淆。只需使用普通的老Python
我们每天都这样做,我们对结果非常非常满意。它简单、清晰、有效。您可以使用python提供的
pyodbc
库从各种数据库源提取数据。然后使用pandas
dataframes根据组织需要操作和清理数据。然后再pyodbc
将其加载到数据仓库中 您能描述一下您正在处理的数据仓库的大小吗?它是一个建立已久的仓库,还是刚刚开始?请查看pandas、petl和其他etl工具。为什么要求“使用Python”?你应该为工作选择最好的工具。完全同意。使用sqlalchemy从源表和目标表以及源数据库和目标数据库的ODBC驱动程序中获取元数据。