Azure 在数据工厂中筛选多列上的行

Azure 在数据工厂中筛选多列上的行,azure,filter,dataset,azure-data-factory,Azure,Filter,Dataset,Azure Data Factory,我最近开始在Microsoft Azure上工作,更确切地说,是数据工厂。 我想在Azure ML中处理数据集之前清理数据集,所以我创建了一些数据流步骤来完成这项工作。但是,我不知道如何使用多个列让我解释一下 假设我有一个包含15个特征(列)的数据集,我想过滤每个特征的异常值,假设我有大约500k行。换句话说,在我的第一列中可能有15个值是异常值,在我的第二列中可能有5个在我的第三列中,比如说10个等等。。。但这些值彼此位于不同的行上 我要做的是过滤掉高于或低于阈值的所有值,我要对所有列(而不是

我最近开始在Microsoft Azure上工作,更确切地说,是数据工厂。 我想在Azure ML中处理数据集之前清理数据集,所以我创建了一些数据流步骤来完成这项工作。但是,我不知道如何使用多个列让我解释一下

假设我有一个包含15个特征(列)的数据集,我想过滤每个特征的异常值,假设我有大约500k行。换句话说,在我的第一列中可能有15个值是异常值,在我的第二列中可能有5个在我的第三列中,比如说10个等等。。。但这些值彼此位于不同的行上

我要做的是过滤掉高于或低于阈值的所有值,我要对所有列(而不是一次一列)执行此操作。因为现在我可以这样做,但我必须为每一列创建一个过滤器组,所以这里将有20个过滤器组。 我很确定有办法做到这一点,但我就是找不到方法

我真的很感激任何帮助,如果你有任何问题或事情不清楚,让我知道我会在这里回答


提前感谢您的帮助

更新:


如果其中一列不满足要求,将删除整行。
我想我们可以采取更简单的方法。
在筛选活动中使用表达式:

column1>30&&column135&&column240&&column3更新:


如果其中一列不满足要求,将删除整行。
我想我们可以采取更简单的方法。
在筛选活动中使用表达式:

column1>30&&column135&&column240&&column3是否使用数据流?所有列的过滤条件都相同吗?您好,是的,我使用的是数据流。所有列的过滤条件都相同。是的,它大于或小于conditionHi@Money Sneakers,如果我理解您在回答中的错误,请纠正我。您使用的是数据流吗?所有列的过滤条件都相同吗?您好,是的,我正在使用数据流。所有列的过滤条件都相同。是的,它大于或小于conditionHi@Money Sneakers,如果我理解您的回答有误,请纠正我。您好,非常感谢您的回答和解释。我想这就是我一直在寻找的答案。然而,当我试着做你做的事情时,我得到了一些我并不真正理解的小错误。首先,我创建了一个min-value csv,它只包含一个值和一个列,就像您一样,但是当我在数据流中导入它时,它会创建两个列,第一个列为1,第二个列为min-value。然后,当我进行查找时,我只能选择列_1,它是空的,因此将始终返回Null。不管怎样,我想我已经修复了它。当我创建数据集最小值时,我选择了blob存储,而不是datalake gen2Nice,您解决了错误。如果我的答案对您有帮助,您可以将其作为答案接受(单击答案旁边的复选标记,将其从灰显切换为填充)。这可能对其他社区成员有益。谢谢。是的,这是很有用的最后一件事,我想过滤多个列,但每列都会被过滤一个唯一的值,所以如果值