Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/azure/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在Azure ML studio中(通过GUI)从使用Azure Spark创建的拼花地板文件创建Azure数据集_Azure_Apache Spark_Parquet_Azure Machine Learning Studio - Fatal编程技术网

如何在Azure ML studio中(通过GUI)从使用Azure Spark创建的拼花地板文件创建Azure数据集

如何在Azure ML studio中(通过GUI)从使用Azure Spark创建的拼花地板文件创建Azure数据集,azure,apache-spark,parquet,azure-machine-learning-studio,Azure,Apache Spark,Parquet,Azure Machine Learning Studio,我正在尝试将文件作为数据集加载到Azure ML Studio的GUI中。这些拼花地板文件是通过Spark创建的 在我的文件夹中,Spark会创建诸如“\u SUCCESS”或“\u committed\u 8998000”之类的文件 Azure ML Studio无法读取或忽略它们,并告诉我: The provided file(s) have invalid byte(s) for the specified file encoding. { "message": &

我正在尝试将文件作为数据集加载到Azure ML Studio的GUI中。这些拼花地板文件是通过Spark创建的

在我的文件夹中,Spark会创建诸如“\u SUCCESS”或“\u committed\u 8998000”之类的文件

Azure ML Studio无法读取或忽略它们,并告诉我:

The provided file(s) have invalid byte(s) for the specified file encoding.
{
  "message": " "
}
我选择了“忽略不匹配的文件路径”,但它仍然不起作用


如果我删除了“\u SUCCESS”和其他Spark文件,它就会工作。

感谢您的反馈。您可以在路径中使用全局化。e、 g.path='***.parquet'仅选择拼花文件

这是Azure ML Studio的问题。它可能会尝试解析和解码默认情况下写在拼花文件旁边的CRC文件

现在的解决方案是删除这些文件,希望微软最终能够解决这个问题。

我在“路径”字段中使用了“path/*/*.parquet”,现在它可以工作了。