Pandas 将数据帧导出到csv-Azure AutoML读取文件错误

Pandas 将数据帧导出到csv-Azure AutoML读取文件错误,pandas,azure,azure-machine-learning-studio,azure-machine-learning-service,azure-machine-learning-workbench,Pandas,Azure,Azure Machine Learning Studio,Azure Machine Learning Service,Azure Machine Learning Workbench,我将熊猫数据帧保存到csv文件中。 如果在Azure AutoML中导入,则如下所示: 如果我用Excel打开它,它看起来很好: 我使用以下行导出数据帧: df.to_csv(r'*static_path*/output/measurements.csv') 尝试的解决方法: 在Excel中打开并重新保存为csv 在Excel中打开并重新保存为tsv 在AzureML中切换编码选项 创建csv并使用Microsoft文档中的指南将其上载到blob存储 请注意,根据您的屏幕截图,您

我将熊猫数据帧保存到csv文件中。 如果在Azure AutoML中导入,则如下所示:



如果我用Excel打开它,它看起来很好:



我使用以下行导出数据帧:

df.to_csv(r'*static_path*/output/measurements.csv')
尝试的解决方法:

  • 在Excel中打开并重新保存为csv
  • 在Excel中打开并重新保存为tsv
  • 在AzureML中切换编码选项
  • 创建csv并使用Microsoft文档中的指南将其上载到blob存储

请注意,根据您的屏幕截图,您正在AzureML中导入csv,并使用
分号作为分隔符,而
df.to_csv
将使用
逗号作为分隔符输出您的信息

在导入设置或Python代码中将AzureML中的分隔符设置更改为
逗号
,以提供正确的分隔符,如下所示

在分析您的文件时,还要注意,您的第一列似乎是dataframe索引,在导出到csv时默认情况下由Pandas包含

请改为尝试:

df.to_csv(r'*static_path*/output/measurements.csv',sep=';',index=False)
在任何情况下,您的数据似乎都包含跨文本字段的回车。例如,考虑<代码> ChrimaStff字段。它在屏幕截图显示值的确切位置包含回车符
[0.33353573

正如您在图像中看到的,AzureML屏幕截图中显示的模式与文本字段中不同的回车符完全匹配

这很可能就是问题的原因。AzureML可能将这些回车解释为实际的行尾,并相应地拆分数据,而与文本字段值被括在引号之间的事实无关

您需要正确地处理这些中间回车,可能在将信息导出到csv之前替换它们,并将类似的内容应用到有问题的不同字段:

df.chroma\u stft=df.chroma\u stft.str.replace('\r','')

也请回顾您的文本字段还包括的…/Cord>字符:如费里斯在他/她的评论中所指出的,这可能与这个字段包含一个NUMPY数组和这个数组被截断的事实有关。除了他/她建议的解决方案之外,请考虑使用不同的,特别是,

threshold
linewidth
。我认为调整它们可能会有所帮助。

请共享csv文件以进行检查,如果无法共享数据,请共享示例。@Johannes Schweer上载过程中此文件使用的数据集类型是什么?如果需要,请尝试使用带有自定义分隔符的表格格式?请遵循下面是创建表格数据集的示例:@RohitMungi MSFT我也尝试了表格分隔符。同样的错误结果再次出现。这是我的csv和tsv的一个小示例。有效期为一周:我遵循了你的建议。我们取消了“Coolumn1”由于不再提供数据帧索引。但其余列仍然混乱。我明白了。请在再次删除索引列后上载熊猫生成的修改后的csv文件。您不需要删除
Column1
,现在此列将对应于
song\u id
field@jcccampanero这里有一点示例:@JohannesSchweer您的示例文件看起来像是在单个单元格中插入了2D数据数组,因此示例文件中有大量“…”,这意味着它丢失了一些数据。一种解决方案:将原始数据(原始数据)导入Azure AutoML,处理数据(数据清理、转换等)在Azure中,然后做其余的工作。@JohannesSchweer您能用numpy
ravel
尝试建议的解决方案吗?