Machine learning 机器学习当数据集只包含一个类实例时，使用什么方法？_Machine Learning_Cluster Analysis_Classification_Document Classification_Cosine Similarity

Machine learning 机器学习当数据集只包含一个类实例时，使用什么方法？

machine-learning

Machine learning 机器学习当数据集只包含一个类实例时，使用什么方法？,machine-learning,cluster-analysis,classification,document-classification,cosine-similarity,Machine Learning,Cluster Analysis,Classification,Document Classification,Cosine Similarity,我有一个特定领域的数据集（比如体育-1类）。我想做的是，当我将一个网页提供给分类器/聚类器时，我想得到一个结果，无论该实例（网页）是否与体育相关除了LibSVM（包装器）之外，weka中的大多数分类器都不能处理一元类数据集。我用LibSVM做了一些测试，但问题是在对不相关的数据集进行测试期间，我正确地对它们进行了分类，即使实例是空的！有什么建议吗？如果我在这里使用余弦相似性度量呢？你看过这篇文章和这篇文章吗我假设您的意思是，当您针对另一个非“运动”的数据集运行分类器时，会得到错误分类的结果

我有一个特定领域的数据集（比如体育-1类）。我想做的是，当我将一个网页提供给分类器/聚类器时，我想得到一个结果，无论该实例（网页）是否与体育相关

除了LibSVM（包装器）之外，weka中的大多数分类器都不能处理一元类数据集。我用LibSVM做了一些测试，但问题是在对不相关的数据集进行测试期间，我正确地对它们进行了分类，即使实例是空的！有什么建议吗？
如果我在这里使用余弦相似性度量呢？

你看过这篇文章和这篇文章吗

我假设您的意思是，当您针对另一个非“运动”的数据集运行分类器时，会得到错误分类的结果（即误报），例如“这是运动”

您确定数据集只包含一个类吗？是否确保数据集不包含任何空实例？（别开玩笑了，我以前也遇到过这种事）

在前面提到的帖子的评论中，有一个链接到关于调整SVM的PDF:-我想说SVM比其他常见分类器更难

另一种选择是，你不能把问题转换成二进制分类吗？获得好的结果要容易得多，对于大多数问题，有很多不属于这一类的例子，例如体育网站vs搞笑图片网站、编程网站等

PS：您可以使用其他算法来检测异常值：

您看过这篇文章和这篇文章吗

我假设您的意思是，当您针对另一个非“运动”的数据集运行分类器时，会得到错误分类的结果（即误报），例如“这是运动”

您确定数据集只包含一个类吗？是否确保数据集不包含任何空实例？（别开玩笑了，我以前也遇到过这种事）

在前面提到的帖子的评论中，有一个链接到关于调整SVM的PDF:-我想说SVM比其他常见分类器更难

PS：您可以使用其他算法来检测异常值：

是的，我已经看到了线程，因为它是由我启动的：），我也看到了您提到的所有其他资源。是的，你的假设是正确的。我的数据集只包含一个类（我使用的是weka，在path->1类中只包含一个文件夹）实例。我重新检查了训练数据集，没有空实例（不需要模拟：D）。我已经对SVM gamma和nu参数进行了调整，但无法得到可靠的模型。我不能在这里使用二进制分类，因为我这样做是为了进行网页爬行研究，而您得到的网页是未知的。继续..在这里使用余弦相似性怎么样？我可以用训练数据中最频繁的单词构建质心，然后一旦输入了一个新实例，根据相似度得分，我就可以确定它的相关性有多大？是的。这听起来是个好办法。不管度量值是什么（余弦、欧几里得等），它都应该有效。如果你要这样做，你会得到更好的结果，如果你权衡词频（有效地从等式中删除常用词）并考虑停止词。另外，在页面标题中给单词更多的权重。有一件事很难，对于web数据，很容易获得大量示例数据。我使用RSS提要链接来实现这一点：新闻网站有不同类别的特定提要——商业、体育、政治）、目录等。你可以构建巨大的示例数据集。我在weka做了一个测试，使用欧几里德距离度量，但我所有的测试实例都聚集在同一个集群中。我真的不明白为什么会这样。原因可能是什么？是的，我看到了那个线程，因为它是由我启动的：），我也看到了您提到的所有其他资源。是的，你的假设是正确的。我的数据集只包含一个类（我使用的是weka，在path->1类中只包含一个文件夹）实例。我重新检查了训练数据集，没有空实例（不需要模拟：D）。我已经对SVM gamma和nu参数进行了调整，但无法得到可靠的模型。我不能在这里使用二进制分类，因为我这样做是为了进行网页爬行研究，而您得到的网页是未知的。继续..在这里使用余弦相似性怎么样？我可以用训练数据中最频繁的单词构建质心，然后一旦输入了一个新实例，根据相似度得分，我就可以确定它的相关性有多大？是的。这听起来是个好办法。不管度量值是什么（余弦、欧几里得等），它都应该有效。如果你要这样做，你会得到更好的结果，如果你权衡词频（有效地从等式中删除常用词）并考虑停止词。另外，在页面标题中给单词更多的权重。有一件事很难，对于web数据，很容易获得大量示例数据。我使用RSS提要链接来实现这一点：新闻网站有不同类别的特定提要——商业、体育、政治）、目录等。你可以构建巨大的示例数据集。我在weka做了一个测试，使用欧几里德距离度量，但我所有的测试实例都聚集在同一个集群中。我真的不明白为什么会这样。原因可能是什么？