Google cloud platform Dataprep将不同列数的文件导入到数据集中

Google cloud platform Dataprep将不同列数的文件导入到数据集中,google-cloud-platform,google-cloud-dataprep,Google Cloud Platform,Google Cloud Dataprep,我试图创建一个参数化的数据集,从GCS导入文件,并将它们置于彼此之下。这一切都很好(导入数据>参数化) 为了提供一点上下文信息,我每天都存储一个.csv文件,文件名与日期不同 现在碰巧我的提供者从上个月开始在文件中添加了一个新列。这意味着在此日期之前的文件有8列,而在此日期之后的文件有9列 但是,当我参数化时,Dataprep只考虑匹配的列(因此8列only)。理想情况下,我希望对来自没有此新列的文件的行进行空观察 如何实现这一点?参数化数据集仅适用于以下所述的固定模式: 避免在单个文件或表具有

我试图创建一个参数化的数据集,从GCS导入文件,并将它们置于彼此之下。这一切都很好(导入数据>参数化)

为了提供一点上下文信息,我每天都存储一个.csv文件,文件名与日期不同

现在碰巧我的提供者从上个月开始在文件中添加了一个新列。这意味着在此日期之前的文件有8列,而在此日期之后的文件有9列

但是,当我参数化时,Dataprep只考虑匹配的列(因此8列only)。理想情况下,我希望对来自没有此新列的文件的行进行空观察


如何实现这一点?

参数化数据集仅适用于以下所述的固定模式:

避免在单个文件或表具有不同模式的情况下使用参数创建数据集

此固定模式是使用在创建带有参数的数据集期间找到的文件之一生成的


如果模式已更改,则可以通过使用参数编辑数据集并单击保存来“刷新”它。如果所有匹配的文件都包含9列,那么您现在应该可以在转换器中看到9列。

很有意义。关于刷新的好提示,因为我现在总是重新导入整个数据集以获得新方案。