Artificial intelligence 具有多个训练数据源的监督学习

Artificial intelligence 具有多个训练数据源的监督学习,artificial-intelligence,machine-learning,Artificial Intelligence,Machine Learning,我不确定它是否是机器学习问题的正确交换站点,但我以前确实看到过ML问题,所以我正在尝试我的运气(也发布在) 我有来自不同来源的培训实例,因此构建一个模型并不奏效。在这种情况下,是否有已知的方法可供使用 这个例子最能说明问题。假设我想根据基于不同人群构建的训练数据对癌症/非癌症进行分类。与其他人群相比,一个人群中的培训实例可能具有完全不同的正/负示例分布。现在,我可以为每个群体构建一个单独的模型,但问题是,对于测试,我不知道测试实例来自哪个群体 *所有的训练/测试实例都具有完全相同的功能集,而不管

我不确定它是否是机器学习问题的正确交换站点,但我以前确实看到过ML问题,所以我正在尝试我的运气(也发布在)

我有来自不同来源的培训实例,因此构建一个模型并不奏效。在这种情况下,是否有已知的方法可供使用

这个例子最能说明问题。假设我想根据基于不同人群构建的训练数据对癌症/非癌症进行分类。与其他人群相比,一个人群中的培训实例可能具有完全不同的正/负示例分布。现在,我可以为每个群体构建一个单独的模型,但问题是,对于测试,我不知道测试实例来自哪个群体


*所有的训练/测试实例都具有完全相同的功能集,而不管它们来自哪个群体。

我怀疑这可能不会比将所有数据都放入在整个集合上训练过的单个分类器更好。从高层次上讲,数据集的特性应该告诉您标签,而不是输入分布。但是你可以试试

为每个试图预测标签的数据集训练一个单独的分类器。然后在组合分布上训练分类器,该分类器尝试预测数据点来自哪个数据集。然后,当您想要预测测试实例的标签时,使用每个子分类器,并将其权重与高级数据集分类器指定的权重成比例


这感觉很像混合高斯模型中的估计步骤,在该步骤中,您通过从K个中心获取估计值分配的概率加权平均值来分配生成数据点的概率。

这方面的经典方法是通过分层建模(如果您可以有分层)、固定效果模型(或随机效应,取决于假设和情况)、各种其他集团或结构模型

在机器学习环境中,您也可以通过将分布描述为源的函数,包括样本总体和响应变量。因此,源本质上是一个可能与所有(或大部分)其他功能交互的功能

更大的问题是,你未来(测试)的数据是来自这些抽样人群中的一个,还是来自另一个人群


更新1:如果你想专注于机器学习,而不是统计学,另一个相关的概念是迁移学习。它不是非常复杂,尽管它被大肆宣传。基本思想是,你可以在辅助数据分布中找到共同的属性,这些属性可以映射到t目标数据源。从另一个意义上说,您正在寻找一种排除源相关变异的方法。这些是非常高级的描述,但应该有助于您的阅读计划。

一个天真的想法是:如果您的训练/测试集具有相同的功能,您可以为每个群体构建一个单独的分类器。您只需输入测试数据即可et到集合中,查看与测试实例的目标总体匹配的分类器是否性能更好,而所有其他分类器是否性能更差(或者您可以了解某种差异)


你能建立一个单独的分类器来预测一个实例所属的群体吗?如果是,你可以将它用作预分类,然后再执行后续工作。

如果你只对预测感兴趣(我认为,这是因为你在谈论监督学习),那么混合数据集并训练一个联合模型没有什么错

如果您使用的是支持向量机、神经网络或逻辑回归等模型,则可能有助于添加另一个特征,以指示样本所属的总体。一旦您获得了一个看不见的样本,请将此特征设置为中性值(例如,使用-1表示pop 1,+1表示pop2,0表示看不见的样本)


你可以很容易地检查这两个群体的区别。

我在想一些类似的事情,但是你给了我一些很棒的想法。非常感谢。我会读到它。测试数据将有一个相似的特性,作为一个采样群体。非常感谢!有没有理由考虑你的不同PO?单独填充(除明显分层效应外)?可能是某种层次或混合模型,其中实例来自不同人群,可能有癌症/非癌症标签。然后,您将整合人群变量以估计标签。@chl我不确定我是否理解。分离人群的主要原因是阳性/阴性样本的不同分布其中一个群体可能有80%的阳性标签,而另一个群体可能有30%的阳性标签。不同群体的特征规模几乎相同,因此很难使用一个模型来研究潜在的现象。@非常感谢高带宽。我现在正在研究这样的模型。@Raviv我的问题仅仅是关于你研究的目的:你知道吗想要建立特定人群的预测模型或对您的疾病进行分类,而不管新患者来自哪个人群。无论如何,请在此处注册您的帐户,以便我们可以要求迁移(从so->CV先验)。