Machine learning 长文本(如文章内容)还是短文本(如文章标题)更适合分类?

Machine learning 长文本(如文章内容)还是短文本(如文章标题)更适合分类?,machine-learning,Machine Learning,我目前正在做一个收集和分类新闻文章的项目,我只对收集到的所有文章中的一小部分(例如体育相关新闻)感兴趣 我是机器学习和文本分类的新手。我应该根据标题或实际内容对文章进行分类吗?只要看一下标题,人们通常就能相当自信地判断新闻文章是否相关。因此我想知道,在自动文本分类中,标题而不是内容是否能提供类似或更好的准确性 出现此问题的原因是,如果程序在找到链接时首先分析标题,而不是从URL中检索每个页面,然后分析内容,那么总体性能将大大提高。如果我们谈论的是文章的标题,那么,当然,非常短的文本对于分类来说更

我目前正在做一个收集和分类新闻文章的项目,我只对收集到的所有文章中的一小部分(例如体育相关新闻)感兴趣

我是机器学习和文本分类的新手。我应该根据标题或实际内容对文章进行分类吗?只要看一下标题,人们通常就能相当自信地判断新闻文章是否相关。因此我想知道,在自动文本分类中,标题而不是内容是否能提供类似或更好的准确性


出现此问题的原因是,如果程序在找到链接时首先分析标题,而不是从URL中检索每个页面,然后分析内容,那么总体性能将大大提高。

如果我们谈论的是文章的标题,那么,当然,非常短的文本对于分类来说更糟糕,因为它包含的信息较少。但你可以结合分析文章的标题和内容。这可能会稍微提高准确性。

如果我们谈论的是文章的标题,那么,当然,对于分类来说,非常短的文本更糟糕,因为它包含的信息更少。但你可以结合分析文章的标题和内容。这可能会稍微提高准确性。

标题不太可能提供足够的信息来对文章进行分类。然而,你可以分析标题,如果你有足够的信心,你有一个准确的分类,你可以分类,否则看看内容


比如说曼彻斯特陷入困境。如果你不知道曼彻斯特是一支运动队,那么这篇文章可能是经济类或政治类,也可能是少数几个其他类别之一。我怀疑很多标题只能很容易地被人们分类,因为他们熟悉与该类别相关的专有名词,而且可能很难获得适当的培训数据来培训代理做好这项工作。

标题不可能提供足够的信息来对文章进行分类。然而,你可以分析标题,如果你有足够的信心,你有一个准确的分类,你可以分类,否则看看内容


比如说曼彻斯特陷入困境。如果你不知道曼彻斯特是一支运动队,那么这篇文章可能是经济类或政治类,也可能是少数几个其他类别之一。我怀疑很多标题只能很容易地被人们分类,因为他们熟悉与该类别相关的专有名词,而且可能很难获得适当的培训数据来培训一名特工做好这项工作。

没有一般的答案。很大程度上取决于您将要使用的算法。我建议你从一个标题开始,试着从中挤出最大值。如果仍然无法达到预期的质量,请尝试将文本添加到混合中。

没有一般的答案。很大程度上取决于您将要使用的算法。我建议你从一个标题开始,试着从中挤出最大值。如果你仍然无法达到预期的质量,试着将文本加入到混合中