Machine learning 类别中数据非常相似的网页的二进制分类_Machine Learning_Classification

Machine learning 类别中数据非常相似的网页的二进制分类

machine-learning

Machine learning 类别中数据非常相似的网页的二进制分类,machine-learning,classification,Machine Learning,Classification,我正在对与我感兴趣的主题相关的网页进行二进制分类。我想对网页是否属于某一类别进行分类。我已手动将数据集标记为两个类别阳性和阴性。然而，我在这里关注的是，当我从每一个类别中查看单词包时，它们的特征非常相似。正面和负面网页确实非常接近（内容方面）更多信息-内容是英文的，我们也在做停止词删除我怎样才能完成这项任务？有没有一种不同的方法可以应用于这个问题？谢谢您可以使用成对的连续单词而不是单个单词（成对单词的袋子）。希望这两个词能更好地表达你所追求的概念。接下来可能会出现三个单词。问题是维度变得

我正在对与我感兴趣的主题相关的网页进行二进制分类。我想对网页是否属于某一类别进行分类。我已手动将数据集标记为两个类别

阳性

和

阴性

。然而，我在这里关注的是，当我从每一个类别中查看单词包时，它们的特征非常相似。

正面

和

负面

网页确实非常接近（内容方面）

更多信息-内容是英文的，我们也在做停止词删除

我怎样才能完成这项任务？有没有一种不同的方法可以应用于这个问题？

谢谢

您可以使用成对的连续单词而不是单个单词（成对单词的袋子）。希望这两个词能更好地表达你所追求的概念。接下来可能会出现三个单词。问题是维度变得非常高（N^2）。如果你负担不起，一个想法是对单词对使用散列技巧（查看有关随机投影/散列的文献）来限制维度。

你能想到其他任何能将它们区分开来的功能吗？你个人的标准是什么？一个学习算法也许能够在狭窄的间隔内“勉强凑合”，但你可能会有很多误报和漏报。这就是我现在得到的…很多误报。专家们将这些网页分为不同的类别，但主要依据的是它们是否谈论某个主题。在我的例子中，负面网页主要是将网页转发到正面网页。我目前正在深入挖掘，以找到其他可以区分这两个类别的内容。此外，我正在抓取仅限于我感兴趣的主题的页面，这已经大大限制了噪音。啊，你是在尝试筛选“博客垃圾邮件”吗？您可以尝试添加其他功能，如文章长度、页面上的广告数量、文章中的链接数量等。我认为您不会在StackOverflow上得到具体的答案，除非您详细说明您的问题。@aganders3不是“blogspam”。主要是与科学研究相关的网站。您提到的一些功能可能很有用，但从您的经验来看，这些功能仍然很有用。我会试试的。谢谢