Machine learning 类别中数据非常相似的网页的二进制分类

Machine learning 类别中数据非常相似的网页的二进制分类,machine-learning,classification,Machine Learning,Classification,我正在对与我感兴趣的主题相关的网页进行二进制分类。我想对网页是否属于某一类别进行分类。我已手动将数据集标记为两个类别阳性和阴性。然而,我在这里关注的是,当我从每一个类别中查看单词包时,它们的特征非常相似。正面和负面网页确实非常接近(内容方面) 更多信息-内容是英文的,我们也在做停止词删除 我怎样才能完成这项任务?有没有一种不同的方法可以应用于这个问题? 谢谢 您可以使用成对的连续单词而不是单个单词(成对单词的袋子)。希望这两个词能更好地表达你所追求的概念。接下来可能会出现三个单词。问题是维度变得

我正在对与我感兴趣的主题相关的网页进行二进制分类。我想对网页是否属于某一类别进行分类。我已手动将数据集标记为两个类别
阳性
阴性
。然而,我在这里关注的是,当我从每一个类别中查看单词包时,它们的特征非常相似。
正面
负面
网页确实非常接近(内容方面)

更多信息-内容是英文的,我们也在做停止词删除

我怎样才能完成这项任务?有没有一种不同的方法可以应用于这个问题?
谢谢

您可以使用成对的连续单词而不是单个单词(成对单词的袋子)。希望这两个词能更好地表达你所追求的概念。接下来可能会出现三个单词。问题是维度变得非常高(N^2)。如果你负担不起,一个想法是对单词对使用散列技巧(查看有关随机投影/散列的文献)来限制维度。

你能想到其他任何能将它们区分开来的功能吗?你个人的标准是什么?一个学习算法也许能够在狭窄的间隔内“勉强凑合”,但你可能会有很多误报和漏报。这就是我现在得到的…很多误报。专家们将这些网页分为不同的类别,但主要依据的是它们是否谈论某个主题。在我的例子中,负面网页主要是将网页转发到正面网页。我目前正在深入挖掘,以找到其他可以区分这两个类别的内容。此外,我正在抓取仅限于我感兴趣的主题的页面,这已经大大限制了噪音。啊,你是在尝试筛选“博客垃圾邮件”吗?您可以尝试添加其他功能,如文章长度、页面上的广告数量、文章中的链接数量等。我认为您不会在StackOverflow上得到具体的答案,除非您详细说明您的问题。@aganders3不是“blogspam”。主要是与科学研究相关的网站。您提到的一些功能可能很有用,但从您的经验来看,这些功能仍然很有用。我会试试的。谢谢