Google cloud platform Cloud Dataprep-用中间数据集的值替换代码或id
我对GCP dataprep非常陌生,现在正试图创建一个配方,但我不知道该怎么做 总而言之,我有两个文件,第一个包含以下列: 名称、控制代码 第二个是: 国家/地区代码、国家/地区名称 如何将第一个数据集中的国家/地区代码替换为第二个数据集中的国家/地区名称(与相应的国家/地区代码匹配)Google cloud platform Cloud Dataprep-用中间数据集的值替换代码或id,google-cloud-platform,google-cloud-dataprep,trifacta,Google Cloud Platform,Google Cloud Dataprep,Trifacta,我对GCP dataprep非常陌生,现在正试图创建一个配方,但我不知道该怎么做 总而言之,我有两个文件,第一个包含以下列: 名称、控制代码 第二个是: 国家/地区代码、国家/地区名称 如何将第一个数据集中的国家/地区代码替换为第二个数据集中的国家/地区名称(与相应的国家/地区代码匹配) 提前谢谢 对于任何想做这种东西的人。您可以通过Dataprep!中的查找属性来实现它 只需选择要更改的列(在我的示例中为COUNTRY_CODE),然后选择Lookup->Pick a Dataset(在我的示
提前谢谢 对于任何想做这种东西的人。您可以通过Dataprep!中的查找属性来实现它
只需选择要更改的列(在我的示例中为COUNTRY_CODE),然后选择Lookup->Pick a Dataset(在我的示例中为第二个)。它会像预期的那样取代它 对于任何想做这种东西的人。您可以通过Dataprep!中的查找属性来实现它
只需选择要更改的列(在我的示例中为COUNTRY_CODE),然后选择Lookup->Pick a Dataset(在我的示例中为第二个)。它会像预期的那样取代它 虽然查找答案将正常工作,但对于扩展性而言,
JOIN
选项可能是一个更好的解决方案,因为它支持远程端的多个列,显示匹配率,允许模糊匹配,以及许多其他优点(例如忽略匹配中的空白)。您还可以选择联接类型来控制如何处理输出和缺少的行
从语义上讲,这两个选项没有太大区别,我也没有看到真正的性能差异,但我已经能够通过使用如下连接来简化其中一些操作:
虽然查找答案可以正常工作,但对于扩展性而言,
JOIN
选项可能是一个更好的解决方案,因为它支持远程端的多个列,显示匹配率,允许模糊匹配,以及许多其他优点(例如忽略匹配中的空白)。您还可以选择联接类型来控制如何处理输出和缺少的行
从语义上讲,这两个选项没有太大区别,我也没有看到真正的性能差异,但我已经能够通过使用如下连接来简化其中一些操作: