Python 标题值随时间变化时,数百个AWS计费数据CSV文件的数据可视化

Python 标题值随时间变化时,数百个AWS计费数据CSV文件的数据可视化,python,amazon-web-services,amazon-s3,amazon-dynamodb,amazon-redshift,Python,Amazon Web Services,Amazon S3,Amazon Dynamodb,Amazon Redshift,我正在Tableau中开发一个数据可视化仪表板,AWS S3存储桶中有数百个CSV文件,每天都会生成新文件。 为了实现这一点并加快进程,我将文件加载到AWS红移数据库中。CSV文件有新列,有时以前存在的列不会出现在传入文件中。为了处理这个问题,我修改了我的代码来读取和比较标题,如果有新的标题出现,它将改变表,添加新的列 然而,我面临的问题如下: CSV文件头值随时间而变化,即如果列的当前值为'cost',则在下个月,'cost'列可能不存在,但它通过值'Blended cost'映射到新列 只有

我正在Tableau中开发一个数据可视化仪表板,AWS S3存储桶中有数百个CSV文件,每天都会生成新文件。 为了实现这一点并加快进程,我将文件加载到AWS红移数据库中。CSV文件有新列,有时以前存在的列不会出现在传入文件中。为了处理这个问题,我修改了我的代码来读取和比较标题,如果有新的标题出现,它将改变表,添加新的列

然而,我面临的问题如下:

  • CSV文件头值随时间而变化,即如果列的当前值为
    'cost'
    ,则在下个月,
    'cost'
    列可能不存在,但它通过值
    'Blended cost'
    映射到新列
  • 只有当表头位置与表中的列位置匹配时,将命令复制为红移才有效。但是,对于这样的动态文件,匹配列位置是不可行的。我正在探索Dynamo DB选项来解决这个问题

  • 处理这种情况的最佳方法是什么?如有任何推荐,我们将不胜感激

    哎呀,我想管理元数据毕竟很重要。您确定Amazon没有提供任何跟踪字段及其含义的功能吗?格式略有改进