如何在Azure ML studio中(通过GUI)从使用Azure Spark创建的拼花地板文件创建Azure数据集
我正在尝试将文件作为数据集加载到Azure ML Studio的GUI中。这些拼花地板文件是通过Spark创建的 在我的文件夹中,Spark会创建诸如“\u SUCCESS”或“\u committed\u 8998000”之类的文件 Azure ML Studio无法读取或忽略它们,并告诉我:如何在Azure ML studio中(通过GUI)从使用Azure Spark创建的拼花地板文件创建Azure数据集,azure,apache-spark,parquet,azure-machine-learning-studio,Azure,Apache Spark,Parquet,Azure Machine Learning Studio,我正在尝试将文件作为数据集加载到Azure ML Studio的GUI中。这些拼花地板文件是通过Spark创建的 在我的文件夹中,Spark会创建诸如“\u SUCCESS”或“\u committed\u 8998000”之类的文件 Azure ML Studio无法读取或忽略它们,并告诉我: The provided file(s) have invalid byte(s) for the specified file encoding. { "message": &
The provided file(s) have invalid byte(s) for the specified file encoding.
{
"message": " "
}
我选择了“忽略不匹配的文件路径”,但它仍然不起作用
如果我删除了“\u SUCCESS”和其他Spark文件,它就会工作。感谢您的反馈。您可以在路径中使用全局化。e、 g.path='***.parquet'仅选择拼花文件这是Azure ML Studio的问题。它可能会尝试解析和解码默认情况下写在拼花文件旁边的CRC文件 现在的解决方案是删除这些文件,希望微软最终能够解决这个问题。我在“路径”字段中使用了“path/*/*.parquet”,现在它可以工作了。