Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/azure/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
来自三个联接的U-SQL合并操作写入了大量数据_Sql_Azure_Azure Data Lake_U Sql - Fatal编程技术网

来自三个联接的U-SQL合并操作写入了大量数据

来自三个联接的U-SQL合并操作写入了大量数据,sql,azure,azure-data-lake,u-sql,Sql,Azure,Azure Data Lake,U Sql,所以我有三个数据源,我想把它们连接在一起,产生一些输出 File1.json:378mb File2.json:72kb file3.json:500kb @extractFile1 = EXTRACT columnList FROM PATH "path/File1.json" USING new Microsoft.Analytics.Samples.Formats.Json.JsonExtractor(); @extractFile2 = EXTRACT columnList FRO

所以我有三个数据源,我想把它们连接在一起,产生一些输出

File1.json:
378mb

File2.json:
72kb

file3.json:
500kb

 @extractFile1 = EXTRACT columnList FROM PATH "path/File1.json" USING new Microsoft.Analytics.Samples.Formats.Json.JsonExtractor();

 @extractFile2 = EXTRACT columnList FROM PATH "path/File2.json" USING new Microsoft.Analytics.Samples.Formats.Json.JsonExtractor();

 @extractFile3 = EXTRACT columnList FROM PATH "path/File3.json" USING new Microsoft.Analytics.Samples.Formats.Json.JsonExtractor();

 @result = 
     SELECT f1.column, f2.column, f1.column, f3.column
     from @extractFile3 AS f3
     INNER JOIN (
              SELECT f3new.column,
                     f3new.column AS somename
                   from @extractFile1 AS f1
                   INNER JOIN @ExtractFile3 f3new ON f1.column == f3new.column
                   GROUP BY f3new.column
            ) AS first 
               ON f3.column == somename

            INNER JOIN @extractFile1 AS f1 ON f3.column == f1.column
            INNER JOIN @extractFile2 as f2 ON f1.column == f3.column
执行此操作将导致作业图中的合并操作显示写入:195GB,并且仍在进行。它在一个顶点上运行了70分钟


有人知道执行计划中的联合收割机操作是如何写入这么多数据的吗

你试过打开电源吗?在ADLA中处理数百个小JSON文件时,它大大提高了我的性能。

我刚刚尝试过,但结果没有改变。合并操作仍然会写入无限量的数据。我会在将来的场景中记住这个特性,因为我有很多小文件,但我认为这与我现在的情况无关,因为我只有三个相对较小的文件。