Python 面向财经新闻的机器学习_Python_Machine Learning_Classification_Nltk

Python 面向财经新闻的机器学习

python machine-learning

Python 面向财经新闻的机器学习,python,machine-learning,classification,nltk,Python,Machine Learning,Classification,Nltk,我有一份来自各种金融网站（如彭博社、MarketWatch、CNN等）的新闻文章列表。我想根据这些文章的财务相关性对它们进行分类，以了解是否涉及任何财务困境或危机我已经使用NLTK开发了一个Python程序，它根据每一篇文章的财务相关性对其进行评分目前，我使用的关键词列表/词典如下：市场财务损失贷款等然后检查这个列表中有多少单词出现在新闻文章中，并为每个单词保留一个分数，然后将所有单词的分数相加得到一个总分同样，我也有金融短语的列表/词典：不同意债权人的意见申请破产第

我有一份来自各种金融网站（如彭博社、MarketWatch、CNN等）的新闻文章列表。我想根据这些文章的财务相关性对它们进行分类，以了解是否涉及任何财务困境或危机

我已经使用NLTK开发了一个Python程序，它根据每一篇文章的财务相关性对其进行评分

目前，我使用的关键词列表/词典如下：

市场
财务
损失
贷款等

然后检查这个列表中有多少单词出现在新闻文章中，并为每个单词保留一个分数，然后将所有单词的分数相加得到一个总分

同样，我也有金融短语的列表/词典：

不同意债权人的意见
申请破产
第11章的文件等

将此列表和上述列表中的分数相加，然后将总分数分配给文章，这是文章相关性的指标

我想在这个过程中加入机器学习，并希望将上述方法中已经分类的新闻文章作为训练集

请帮助找到实现这一点的最佳算法。

这是一个分类机器学习问题，逻辑回归可以做到这一点：

最好在这里问这个问题：