Machine learning 你怎么称呼这种;“非均质”;分类任务

Machine learning 你怎么称呼这种;“非均质”;分类任务,machine-learning,classification,Machine Learning,Classification,如果您不知道正确的术语,则很难搜索:-( 我被要求查看一个潜在的分类应用程序,并非所有可用数据都与每个分类相关,但所有类型的数据都与至少某些项目类别的分类相关 例如,你可以想象一个考古挖掘机器人,它被要求对发现的所有东西进行分类指它筛选的土壤、粘土和沙子的类型,它发现的不同类型的岩石、卵石和陶片,它发现的真菌、细菌和土壤生物的类型,以及可能更直接与该地区先前人类活动有关的所有人工制品 因此,你可能有DNA或其他分析来告诉你这些骨骼是人类还是动物,它们也适用于细菌和真菌,但不适用于沙子、粘土和石头

如果您不知道正确的术语,则很难搜索:-(

我被要求查看一个潜在的分类应用程序,并非所有可用数据都与每个分类相关,但所有类型的数据都与至少某些项目类别的分类相关

例如,你可以想象一个考古挖掘机器人,它被要求对发现的所有东西进行分类指它筛选的土壤、粘土和沙子的类型,它发现的不同类型的岩石、卵石和陶片,它发现的真菌、细菌和土壤生物的类型,以及可能更直接与该地区先前人类活动有关的所有人工制品

因此,你可能有DNA或其他分析来告诉你这些骨骼是人类还是动物,它们也适用于细菌和真菌,但不适用于沙子、粘土和石头。请注意,任何类型的数据总是可以用于分析和分类的每一个项目,但很可能是某种嘈杂的空值w当它与一个项目的分类无关时。也就是说,没有预先分类和选择性生成相关数据的基础。因此数据是统一生成的,但相关性不一致。这就是我所说的“非同质”。


如果我能找出这是什么,那么我可能有更好的机会找到如何处理这个问题以及什么分类技术可能是合适的。回答形式“它被称为X,并且在[link]上有一个关于它的建设性讨论”将是非常棒的:-)

我将从数据库中称为EAV的概念开始。。。我认为你基本上是在看一个稀疏矩阵。从每个分类任务的角度来看,相关和不相关的特征是不变的。e、 g.在上例中,对骨源进行分类时,DNA总是相关的。因此,每个任务都可以作为一般的机器学习问题来处理,其中一些特征是不相关的;如果这种理解是正确的,您可以单独为每个分类任务执行特征选择。@etov-实际上只有一个分类任务。如果一个人正在对骨源进行分类,那么他就无法先验地知道。如果有,则意味着(部分)分类已经完成。是的-我说的是一个系统,它将对项目执行不相关的分析,但是这个应用程序中的分析成本很低,所以它都是统一的(有效地?浪费地?)提前完成的。如果不首先对某些内容进行部分分类,则(进一步)特征选择是没有依据的——所有特征都至少与某些分类相关。您是否检查了“主动”学习方法?它可能适合您的情况。@omatai,在这种情况下,为什么不执行显式层次分类呢?i、 e.构建第一个分类器,以确定您要分类的内容,然后使用适当的分类器。尝试在一个分类器中执行这两个任务虽然可能,但可能不是最简单或最有效的方法。