Python 面向财经新闻的机器学习

Python 面向财经新闻的机器学习,python,machine-learning,classification,nltk,Python,Machine Learning,Classification,Nltk,我有一份来自各种金融网站(如彭博社、MarketWatch、CNN等)的新闻文章列表。我想根据这些文章的财务相关性对它们进行分类,以了解是否涉及任何财务困境或危机 我已经使用NLTK开发了一个Python程序,它根据每一篇文章的财务相关性对其进行评分 目前,我使用的关键词列表/词典如下: 市场 财务 损失 贷款等 然后检查这个列表中有多少单词出现在新闻文章中,并为每个单词保留一个分数,然后将所有单词的分数相加得到一个总分 同样,我也有金融短语的列表/词典: 不同意债权人的意见 申请破产 第

我有一份来自各种金融网站(如彭博社、MarketWatch、CNN等)的新闻文章列表。我想根据这些文章的财务相关性对它们进行分类,以了解是否涉及任何财务困境或危机

我已经使用NLTK开发了一个Python程序,它根据每一篇文章的财务相关性对其进行评分

目前,我使用的关键词列表/词典如下:

  • 市场
  • 财务
  • 损失
  • 贷款等
然后检查这个列表中有多少单词出现在新闻文章中,并为每个单词保留一个分数,然后将所有单词的分数相加得到一个总分

同样,我也有金融短语的列表/词典:

  • 不同意债权人的意见
  • 申请破产
  • 第11章的文件等
将此列表和上述列表中的分数相加,然后将总分数分配给文章,这是文章相关性的指标

我想在这个过程中加入机器学习,并希望将上述方法中已经分类的新闻文章作为训练集


请帮助找到实现这一点的最佳算法。

这是一个分类机器学习问题,逻辑回归可以做到这一点:


最好在这里问这个问题: