Python 从不同数据源映射数据的智能方法创建唯一ID_Python_Azure_Etl_Azure Data Factory_Data Mapping

Python 从不同数据源映射数据的智能方法创建唯一ID

python azure azure-data-factory

Python 从不同数据源映射数据的智能方法创建唯一ID,python,azure,etl,azure-data-factory,data-mapping,Python,Azure,Etl,Azure Data Factory,Data Mapping,我有来自不同平面.csv文件的数据，这些文件已上载到Azure Blob存储。使用Azure Data Factory，我创建了一个SQL数据库，其中包含来自不同文件的所有表。所有数据源都包含相同的底层数据，但使用的命名约定略有不同。我的数据源中的数据级别为：品牌屋品牌群产品名称大小我想创建一个唯一的映射约定（最低层次结构级别上的唯一ID），它可以将所有数据源链接在一起。目标是在每个表中创建一个大小级别的唯一ID 目前，我正在考虑用Python编写一个脚本，用于查看不同表中的字符

我有来自不同平面.csv文件的数据，这些文件已上载到Azure Blob存储。使用Azure Data Factory，我创建了一个SQL数据库，其中包含来自不同文件的所有表。所有数据源都包含相同的底层数据，但使用的命名约定略有不同。我的数据源中的数据级别为：

品牌屋
品牌群
产品名称
大小

我想创建一个唯一的映射约定（最低层次结构级别上的唯一ID），它可以将所有数据源链接在一起。目标是在每个表中创建一个大小级别的唯一ID

目前，我正在考虑用Python编写一个脚本，用于查看不同表中的字符串值，并为数据中的每个层次结构级别创建一个唯一的ID。然后使用Azure数据块运行此脚本，并创建所有ID。这种方法要求我查看每个层次结构级别上的所有不同选项，并考虑智能命名约定

Azure Data Factory或其他智能工具中是否有任何内置功能可以帮助我解决此问题？我上面描述的方法需要相当多的手动操作，我想在这里利用任何最佳实践。

我不完全清楚您想做什么。假设一个产品是裤子->鲍勃的牛仔裤->酸洗->男式34。是否将这4个值合并为产品的ID（如PantBobAcid34）以便在多个源中显示时可以轻松链接？当您指的是不同的命名约定时，您是指一个文件中的“品牌屋”称为“另一个文件中的品牌类别”还是一个文件中的“裤子”可以是另一个文件中的“男士裤子”？我认为在本例中，一段示例数据和期望的结果将对理解问题和最终目标有很大帮助。我不完全清楚您试图做什么。假设一个产品是裤子->鲍勃的牛仔裤->酸洗->男式34。是否将这4个值合并为产品的ID（如PantBobAcid34）以便在多个源中显示时可以轻松链接？当您指的是不同的命名约定时，您是指一个文件中的“品牌屋”称为“另一个文件中的品牌类别”还是一个文件中的“裤子”可以是另一个文件中的“男士裤子”？我认为在本例中，一段示例数据和期望的结果将有助于理解问题和最终目标。