Python 按最可能的主题对新闻文章进行分类

Python 按最可能的主题对新闻文章进行分类,python,nlp,classification,text-mining,text-parsing,Python,Nlp,Classification,Text Mining,Text Parsing,假设我有一个API,它返回来自70多个新闻出版物的新闻文章摘要。如果我想解析每个摘要并推断出核心主题,我应该研究什么样的算法 以下是我试图实现的一个示例: 海冰的消失加速了变暖,威胁到动物和人类 生活在北极,引发全球安全担忧。 极地海冰每年夏天融化,每到冬天又重新融化——冻融 北极的气候循环已经被全球气候变化极大地改变了 变暖。不仅北极夏季的海冰迅速缩小, 但海冰的平均厚度也是如此。在过去,有些 多年来,北极海冰厚达10英尺(3米), 现在,大部分冰层只有一年的生长期,这使得冰层变得更加坚硬 夏

假设我有一个API,它返回来自70多个新闻出版物的新闻文章摘要。如果我想解析每个摘要并推断出核心主题,我应该研究什么样的算法

以下是我试图实现的一个示例:

海冰的消失加速了变暖,威胁到动物和人类 生活在北极,引发全球安全担忧。

极地海冰每年夏天融化,每到冬天又重新融化——冻融 北极的气候循环已经被全球气候变化极大地改变了 变暖。不仅北极夏季的海冰迅速缩小, 但海冰的平均厚度也是如此。在过去,有些 多年来,北极海冰厚达10英尺(3米), 现在,大部分冰层只有一年的生长期,这使得冰层变得更加坚硬 夏天容易融化的。科学家预测 在短短几十年内,北冰洋在夏季可能不会结冰


我能看到的最明显的解决方案是使用机器学习分类算法。您将需要一组培训示例,在这些示例中,您将获得摘要和正确的标签(主题)。使用此训练集训练算法如何对未来示例进行分类。在测试集上测试算法,并根据需要调整算法和参数,直到您对测试集的准确性感到满意。然后,在新的例子中放任它。这里有一个简短的概述:@huck_cussler我现在就去看看。我认为解决方案应该是一些有监督的ML算法,但我不知道如何开始。谢谢@克里斯:也许你可以研究信息检索算法,特别是。
Core subjects: ["sea ice melt", "arctic", "global warming"]