Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/azure/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Azure 虚拟文件集列和行集变量U-SQL_Azure_Azure Data Factory_U Sql - Fatal编程技术网

Azure 虚拟文件集列和行集变量U-SQL

Azure 虚拟文件集列和行集变量U-SQL,azure,azure-data-factory,u-sql,Azure,Azure Data Factory,U Sql,我对数据工厂的调度工作有问题。 我正在尝试每小时处理一个计划作业,该作业将在不同条件下每小时执行相同的脚本 假设我在Azure Data Lake Store中有一堆Avro文件,它们以以下模式分布。 /Data/SomeEntity/{date:yyyy}/{date:MM}/{date:dd}/SomeEntity{date:yyyy}{date:MM}{date:dd}{date:H} 每小时都有新文件添加到Data Lake存储中。 为了只处理一次文件,我决定借助U-SQL虚拟文件集列和

我对数据工厂的调度工作有问题。 我正在尝试每小时处理一个计划作业,该作业将在不同条件下每小时执行相同的脚本

假设我在Azure Data Lake Store中有一堆Avro文件,它们以以下模式分布。 /Data/SomeEntity/{date:yyyy}/{date:MM}/{date:dd}/SomeEntity{date:yyyy}{date:MM}{date:dd}{date:H}

每小时都有新文件添加到Data Lake存储中。 为了只处理一次文件,我决定借助U-SQL虚拟文件集列和我在Data Lake Store中创建的一些同步表来处理它们

我的查询如下所示

DECLARE @file_set_path string = /Data/SomeEntity/{date:yyyy}/{date:MM}/{date:dd}/SomeEntity_{date:yyyy}_{date:MM}_{date:dd}__{date:H};
@result = EXTRACT [Id] long,
....
date DateTime
FROM @file_set_path 
USING someextractor;

@rdate =
    SELECT MAX(ProcessedDate) AS ProcessedDate
    FROM dbo.SyncTable 
    WHERE EntityName== "SomeEntity";

@finalResult = SELECT [Id],... FROM @result
CROSS JOIN @rdate AS r
WHERE date >= r.ProcessedDate;
因为我不能在where子句中使用rowset变量,所以我将单行与set交叉连接,但是即使在这种情况下,U-SQL也找不到正确的文件并始终返回所有文件集


是否有任何解决方法或其他方法?

我认为这种方法应该有效,除非有不太正确的地方,即您能否确认
dbo.SyncTable
表的数据类型?转储
@rdate
,并确保获得的值与预期值相符

我制作了一个简单的演示,效果如预期。我的SyncTable副本有一条记录,其值为2018年1月1日:

@working = 
    SELECT *
    FROM (
        VALUES
            ( (int)1, DateTime.Parse("2017/12/31") ), 
            ( (int)2, DateTime.Parse("2018/01/01") ),
            ( (int)3, DateTime.Parse("2018/02/01") )
     ) AS x ( id, someDate );


@rdate =
    SELECT MAX(ProcessedDate) AS maxDate
    FROM dbo.SyncTable;

//@output =
//    SELECT *
//    FROM @rdate;

@output =
    SELECT *, (w.someDate - r.maxDate).ToString() AS diff
    FROM @working AS w
         CROSS JOIN
             @rdate AS r
    WHERE w.someDate >= r.maxDate;


OUTPUT @output TO "/output/output.csv"
USING Outputters.Csv();
我用一个文件路径(完整脚本)尝试了这个方法。需要记住的是,自定义日期格式H将小时表示为0到23之间的数字。如果插入时同步表日期没有时间组件,则默认为午夜(0),这意味着将收集一整天。根据您的模式,您的文件结构应该如下所示:

“D:\datalake\USQLDataRoot\Data\SomeEntity\2017\12\31\SomeEntity\u 2017\u 12\u 31\u 8\test.csv”

我注意到您的文件路径在第二部分中有下划线,在小时部分之前有一个双下划线(介于0和23之间,从一位数到10小时)。我注意到您的文件集路径没有文件类型或引号-我在测试中使用了
test.csv
。我的结果:


基本上,我认为这种方法是可行的,但有些地方不太正确,可能是在文件结构、同步表中的值、数据类型等方面。您需要仔细检查细节,转储中间值以检查,直到找到问题。

wBob完整脚本的要点是否解决了您的问题?以下是wBob的完整脚本的一个经过轻微编辑的版本,用于解决您提出的一些问题:

  • 能够在同步表上进行筛选

  • 模式的最后一部分是文件名,而不是文件夹。示例文件和结构:
    \Data\SomeEntity\2018\01\01\SomeEntity\u 2018\u 01\u 1


  • 另外请注意,文件集不能对动态联接执行分区消除,因为优化器在准备阶段不知道这些值


    我建议将同步点作为参数从ADF传递到处理脚本。然后优化器知道该值,文件集分区消除将开始。在最坏的情况下,您必须在上一个脚本中读取同步表中的值,并在下一个脚本中将其用作参数。

    是否应为“WHERE date==r.ProcessedDate;”?否,因为我正在尝试处理上次处理日期之后的所有文件。您是否在“虚拟文件集”列中进行了检查?您的目录模式是什么?您是否有其他文件,例如一个多月前具有该模式的文件?你能通过你的查询过滤掉它们吗?顺便说一句,模式的最后一部分是文件名而不是文件夹,我的文件不包含任何扩展名,无论如何,我认为这不会产生任何影响
    DECLARE @file_set_path string = @"/Data/SomeEntity/{date:yyyy}/{date:MM}/{date:dd}/SomeEntity_{date:yyyy}_{date:MM}_{date:dd}__{date:H}";
    
    @input =
    EXTRACT [Id] long,
            date DateTime
    FROM @file_set_path
    USING Extractors.Text();
    
    // in lieu of creating actual table
    @syncTable = 
    SELECT * FROM 
        ( VALUES
        ( "SomeEntity",     new DateTime(2018,01,01,01,00,00) ), 
        ( "AnotherEntity",  new DateTime(2018,01,01,01,00,00) ), 
        ( "SomeEntity",     new DateTime(2018,01,01,00,00,00) ), 
        ( "AnotherEntity",  new DateTime(2018,01,01,00,00,00) ), 
        ( "SomeEntity",     new DateTime(2017,12,31,23,00,00) ), 
        ( "AnotherEntity",  new DateTime(2017,12,31,23,00,00) )
        ) AS x ( EntityName, ProcessedDate );
    
    @rdate =
    SELECT MAX(ProcessedDate) AS maxDate
    FROM @syncTable
    WHERE EntityName== "SomeEntity";
    
    @output =
    SELECT *,
           date.ToString() AS dateString
    FROM @input AS i
         CROSS JOIN
             @rdate AS r
    WHERE i.date >= r.maxDate;
    
    
    OUTPUT @output 
    TO "/output/output.txt"
    ORDER BY Id
    USING Outputters.Text(quoting:false);