Azure hdinsight 用户生成数据集与存储数据集的模糊匹配

Azure hdinsight 用户生成数据集与存储数据集的模糊匹配,azure-hdinsight,azure-data-lake,azure-machine-learning-studio,Azure Hdinsight,Azure Data Lake,Azure Machine Learning Studio,我已经存储了工作流。它们是有决策点的树。基本上,数据中的每个点都是发出的命令。将所有这些添加到一起是一个从命令构建内容的工作流 我正在尝试使用azure ml从用户处获取部分完成的工作流,并将其与这些存储的工作流进行匹配 更困难的是,我从不确定用户何时启动或停止了工作流,因此它始终是一个时间首选项匹配,永远不会完美 尽管搜索了好几天,我还是找不到任何关于这种模式匹配的罐装算法的信息 有人能告诉我在哪里可以找到关于获取数据系列(不是数字)的信息,并将其与具有类似值的树图实时匹配吗?这是一个有趣的问

我已经存储了工作流。它们是有决策点的树。基本上,数据中的每个点都是发出的命令。将所有这些添加到一起是一个从命令构建内容的工作流

我正在尝试使用azure ml从用户处获取部分完成的工作流,并将其与这些存储的工作流进行匹配

更困难的是,我从不确定用户何时启动或停止了工作流,因此它始终是一个时间首选项匹配,永远不会完美

尽管搜索了好几天,我还是找不到任何关于这种模式匹配的罐装算法的信息


有人能告诉我在哪里可以找到关于获取数据系列(不是数字)的信息,并将其与具有类似值的树图实时匹配吗?

这是一个有趣的问题,但您能提供一些简单的样本数据和预期结果吗。我猜这看起来像是:对流程的步骤进行特征化,在您标记的测试集上训练模型,然后验证它。这将是一种有监督的方法。您也可以尝试无监督的方法,例如集群。您可能需要数据科学家的帮助,您可以尝试stackoverflow数据科学组。存储的工作流还具有parentid以获取排序和分支。我需要以概率将前者匹配到后者。除了图像匹配之外,我找不到任何模式匹配数组的东西,图像匹配只是间接相关的,但似乎是一种有效的方法来对它们进行位图设置,并使用azure图像匹配来完成它。。。我相信我会喜欢一种更简单的方式。通过Cortana画廊看看:我有。似乎没有什么能满足我的需要。这是一个有趣的问题,但是你能提供一些简单的样本数据和预期的结果吗。我猜这看起来像是:对流程的步骤进行特征化,在您标记的测试集上训练模型,然后验证它。这将是一种有监督的方法。您也可以尝试无监督的方法,例如集群。您可能需要数据科学家的帮助,您可以尝试stackoverflow数据科学组。存储的工作流还具有parentid以获取排序和分支。我需要以概率将前者匹配到后者。除了图像匹配之外,我找不到任何模式匹配数组的东西,图像匹配只是间接相关的,但似乎是一种有效的方法来对它们进行位图设置,并使用azure图像匹配来完成它。。。我相信我会喜欢一种更简单的方式。通过Cortana画廊看看:我有。似乎没有什么能满足我的需要。最近的不做窗口。