Machine learning 机器学习当数据集只包含一个类实例时,使用什么方法?

Machine learning 机器学习当数据集只包含一个类实例时,使用什么方法?,machine-learning,cluster-analysis,classification,document-classification,cosine-similarity,Machine Learning,Cluster Analysis,Classification,Document Classification,Cosine Similarity,我有一个特定领域的数据集(比如体育-1类)。我想做的是,当我将一个网页提供给分类器/聚类器时,我想得到一个结果,无论该实例(网页)是否与体育相关 除了LibSVM(包装器)之外,weka中的大多数分类器都不能处理一元类数据集。我用LibSVM做了一些测试,但问题是在对不相关的数据集进行测试期间,我正确地对它们进行了分类,即使实例是空的!有什么建议吗? 如果我在这里使用余弦相似性度量呢?你看过这篇文章和这篇文章吗 我假设您的意思是,当您针对另一个非“运动”的数据集运行分类器时,会得到错误分类的结果

我有一个特定领域的数据集(比如体育-1类)。我想做的是,当我将一个网页提供给分类器/聚类器时,我想得到一个结果,无论该实例(网页)是否与体育相关

除了LibSVM(包装器)之外,weka中的大多数分类器都不能处理一元类数据集。我用LibSVM做了一些测试,但问题是在对不相关的数据集进行测试期间,我正确地对它们进行了分类,即使实例是空的!有什么建议吗?
如果我在这里使用余弦相似性度量呢?

你看过这篇文章和这篇文章吗

我假设您的意思是,当您针对另一个非“运动”的数据集运行分类器时,会得到错误分类的结果(即误报),例如“这是运动”

您确定数据集只包含一个类吗?是否确保数据集不包含任何空实例?(别开玩笑了,我以前也遇到过这种事)

在前面提到的帖子的评论中,有一个链接到关于调整SVM的PDF:-我想说SVM比其他常见分类器更难

另一种选择是,你不能把问题转换成二进制分类吗?获得好的结果要容易得多,对于大多数问题,有很多不属于这一类的例子,例如体育网站vs搞笑图片网站、编程网站等

PS:您可以使用其他算法来检测异常值:

您看过这篇文章和这篇文章吗

我假设您的意思是,当您针对另一个非“运动”的数据集运行分类器时,会得到错误分类的结果(即误报),例如“这是运动”

您确定数据集只包含一个类吗?是否确保数据集不包含任何空实例?(别开玩笑了,我以前也遇到过这种事)

在前面提到的帖子的评论中,有一个链接到关于调整SVM的PDF:-我想说SVM比其他常见分类器更难

另一种选择是,你不能把问题转换成二进制分类吗?获得好的结果要容易得多,对于大多数问题,有很多不属于这一类的例子,例如体育网站vs搞笑图片网站、编程网站等


PS:您可以使用其他算法来检测异常值:

是的,我已经看到了线程,因为它是由我启动的:),我也看到了您提到的所有其他资源。是的,你的假设是正确的。我的数据集只包含一个类(我使用的是weka,在path->1类中只包含一个文件夹)实例。我重新检查了训练数据集,没有空实例(不需要模拟:D)。我已经对SVM gamma和nu参数进行了调整,但无法得到可靠的模型。我不能在这里使用二进制分类,因为我这样做是为了进行网页爬行研究,而您得到的网页是未知的。继续..在这里使用余弦相似性怎么样?我可以用训练数据中最频繁的单词构建质心,然后一旦输入了一个新实例,根据相似度得分,我就可以确定它的相关性有多大?是的。这听起来是个好办法。不管度量值是什么(余弦、欧几里得等),它都应该有效。如果你要这样做,你会得到更好的结果,如果你权衡词频(有效地从等式中删除常用词)并考虑停止词。另外,在页面标题中给单词更多的权重。有一件事很难,对于web数据,很容易获得大量示例数据。我使用RSS提要链接来实现这一点:新闻网站有不同类别的特定提要——商业、体育、政治)、目录等。你可以构建巨大的示例数据集。我在weka做了一个测试,使用欧几里德距离度量,但我所有的测试实例都聚集在同一个集群中。我真的不明白为什么会这样。原因可能是什么?是的,我看到了那个线程,因为它是由我启动的:),我也看到了您提到的所有其他资源。是的,你的假设是正确的。我的数据集只包含一个类(我使用的是weka,在path->1类中只包含一个文件夹)实例。我重新检查了训练数据集,没有空实例(不需要模拟:D)。我已经对SVM gamma和nu参数进行了调整,但无法得到可靠的模型。我不能在这里使用二进制分类,因为我这样做是为了进行网页爬行研究,而您得到的网页是未知的。继续..在这里使用余弦相似性怎么样?我可以用训练数据中最频繁的单词构建质心,然后一旦输入了一个新实例,根据相似度得分,我就可以确定它的相关性有多大?是的。这听起来是个好办法。不管度量值是什么(余弦、欧几里得等),它都应该有效。如果你要这样做,你会得到更好的结果,如果你权衡词频(有效地从等式中删除常用词)并考虑停止词。另外,在页面标题中给单词更多的权重。有一件事很难,对于web数据,很容易获得大量示例数据。我使用RSS提要链接来实现这一点:新闻网站有不同类别的特定提要——商业、体育、政治)、目录等。你可以构建巨大的示例数据集。我在weka做了一个测试,使用欧几里德距离度量,但我所有的测试实例都聚集在同一个集群中。我真的不明白为什么会这样。原因可能是什么?