Python 从不同数据源映射数据的智能方法创建唯一ID
我有来自不同平面.csv文件的数据,这些文件已上载到Azure Blob存储。使用Azure Data Factory,我创建了一个SQL数据库,其中包含来自不同文件的所有表。所有数据源都包含相同的底层数据,但使用的命名约定略有不同。 我的数据源中的数据级别为:Python 从不同数据源映射数据的智能方法创建唯一ID,python,azure,etl,azure-data-factory,data-mapping,Python,Azure,Etl,Azure Data Factory,Data Mapping,我有来自不同平面.csv文件的数据,这些文件已上载到Azure Blob存储。使用Azure Data Factory,我创建了一个SQL数据库,其中包含来自不同文件的所有表。所有数据源都包含相同的底层数据,但使用的命名约定略有不同。 我的数据源中的数据级别为: 品牌屋 品牌群 产品名称 大小 我想创建一个唯一的映射约定(最低层次结构级别上的唯一ID),它可以将所有数据源链接在一起。目标是在每个表中创建一个大小级别的唯一ID 目前,我正在考虑用Python编写一个脚本,用于查看不同表中的字符
- 品牌屋
- 品牌群
- 产品名称
- 大小
Azure Data Factory或其他智能工具中是否有任何内置功能可以帮助我解决此问题?我上面描述的方法需要相当多的手动操作,我想在这里利用任何最佳实践。我不完全清楚您想做什么。假设一个产品是裤子->鲍勃的牛仔裤->酸洗->男式34。是否将这4个值合并为产品的ID(如PantBobAcid34)以便在多个源中显示时可以轻松链接?当您指的是不同的命名约定时,您是指一个文件中的“品牌屋”称为“另一个文件中的品牌类别”还是一个文件中的“裤子”可以是另一个文件中的“男士裤子”?我认为在本例中,一段示例数据和期望的结果将对理解问题和最终目标有很大帮助。我不完全清楚您试图做什么。假设一个产品是裤子->鲍勃的牛仔裤->酸洗->男式34。是否将这4个值合并为产品的ID(如PantBobAcid34)以便在多个源中显示时可以轻松链接?当您指的是不同的命名约定时,您是指一个文件中的“品牌屋”称为“另一个文件中的品牌类别”还是一个文件中的“裤子”可以是另一个文件中的“男士裤子”?我认为在本例中,一段示例数据和期望的结果将有助于理解问题和最终目标。