Python 如何在机器学习算法中部署我的功能？_Python_Machine Learning_Sentiment Analysis_Feature Selection

Python 如何在机器学习算法中部署我的功能？

python machine-learning

Python 如何在机器学习算法中部署我的功能？,python,machine-learning,sentiment-analysis,feature-selection,Python,Machine Learning,Sentiment Analysis,Feature Selection,我是ML的新手，所以我有一个非常基本的问题。如果有人能为我澄清一下，我将不胜感激假设我有一组标记为否定和肯定的tweet。我想做一些情绪分析我提取了3个基本特征：情感图标感叹号激烈的言辞，真的等等。。我应该如何将这些特性与SVM或其他ML算法结合使用换句话说，我应该如何在SVM算法中部署提取的特征？我正在使用python，已经知道应该如何运行SVM或其他算法，但我不知道提取的特征和它们在每个算法中的作用之间的关系根据一些专家的回答，我更新了我的问题：首先，我想感谢你的时间和有

我是ML的新手，所以我有一个非常基本的问题。如果有人能为我澄清一下，我将不胜感激

假设我有一组标记为否定和肯定的tweet。我想做一些情绪分析

我提取了3个基本特征：

情感图标感叹号激烈的言辞，真的等等。。我应该如何将这些特性与SVM或其他ML算法结合使用

换句话说，我应该如何在SVM算法中部署提取的特征？我正在使用python，已经知道应该如何运行SVM或其他算法，但我不知道提取的特征和它们在每个算法中的作用之间的关系

根据一些专家的回答，我更新了我的问题：

首先，我想感谢你的时间和有价值的解释。我认为我的问题正在解决…所以按照你所说的，每个ML算法可能需要一些矢量化的特征，我应该找到一种方法来将我的特征表示为矢量。我想通过一个基本的例子来解释我从你的解释中得到的东西

假设我有表情图标，例如3个图标作为一个功能：

1-因此，我应该用一个有3个值的向量来表示这个特征

2-矢量化特征可以这样初始化：[0,0,0]每个值表示一个图标=：和：和：p

3-接下来，我应该浏览每条推文，检查推文是否有图标。例如[2,1,0]显示tweet有：：2次，和：1次，和：p没有时间

4-在我检查了所有的tweet后，我会得到一个大向量，大小为n*3 n是我的tweet总数

对于其他特征，应进行5-阶段1-4

6-然后我应该使用SVM的m模型合并所有这些特征，m是我的特征数，然后通过多数投票或其他方法进行分类。或者应该通过连接所有向量来创建一个长向量，并将其提供给SVM

如果有任何误解，请你纠正我好吗？如果它是不正确的，我会删除它，否则我应该让它留下，因为它可以为任何初学者，如我实用。。。感谢大家…

基本上，为了使事情变得简单和肤浅，所有算法都采用某种数字向量来表示特征

真正的工作是找到如何将特征表示为向量，从而产生最佳结果，这取决于特征本身和使用的算法

例如，要使用基本上可以找到分隔平面的SVM，您需要将特征投影到一些向量集上，这些向量集可以产生足够好的分隔效果，因此，例如，您可以这样处理您的特征：

情感图标-创建一个表示该推文中所有图标的向量，将每个图标定义为从1到n的索引，因此由[0,0,0,2,1]表示的推文表示第四个和第五个图标分别出现在他的身体中2次和1次

感叹号-您可以简单地计算出现的次数。更好的方法是表示有关感叹号的更多信息，如句子中的位置等

强度词-您可以使用与情绪图标相同的方法

基本上，每个特征都可以在SVM模型中单独使用来分类好的和坏的

您可以使用3个SVM模型合并所有这些特征，然后通过多数投票或其他方法进行分类

或

您可以通过连接所有向量来创建一个长向量，并将其提供给SVM

这只是一种方法，您可以调整它或使用其他方法来更好地适应您的数据、模型和目标

我是否应该每次使用一个功能训练数据集？我读了几篇文章，他们只是在说：我们应该提取功能并在我们的算法中部署它们，但如何实现呢？基本功能在功能空间中充当推特的坐标。对于有监督的学习，你需要把你认为是训练数据的微博标记为正面或负面，然后使用SVM或其他方法。但我的问题是，我不明白什么时候以及如何使用这些功能？！！例如，在情绪分析任务中，我们都知道表情词典是一项基本功能，它可以作为tweet情绪的线索。但我不知道该如何将这条线索应用到我的算法中HMI将列举情感图标，并将它们与感叹号的数量和强度词的数量一起用作整数，以便每条推特都有一个3x1特征向量“10，0，0”，例如，连同其标签0-正，1-否定您还想在0和1之间规范化这些功能。首先，我想感谢您的时间和有价值的解释。我认为我的问题正在解决…所以按照你所说的，每个ML算法可能需要一些矢量化的特征，我应该找到一种方法来将我的特征表示为矢量。我想解释一下我从你的实验中得到了什么

通过一个基本的例子来解释：假设我有表情图标，例如3个图标作为一个功能。1-因此，我应该用一个有3个值的向量来表示这个特征。2-矢量化特征可以这样初始化：[0,0,0]每个值表示一个图标=：和：和：P。3-接下来，我应该浏览每条推文，检查推文是否有图标。例如[2,1,0]显示tweet有：：2次，和：1次，和：p没有时间。4-在我检查了所有的tweet后，我会得到一个大向量，大小为n*3 n是我的tweet总数。5-阶段1-4应针对其他特征进行。6-然后我应使用SVM的m模型合并所有这些特征m是我的特征数，然后通过多数投票或其他方法进行分类。或者应该通过连接所有向量来创建一个长向量，并将其提供给SVM。如果有任何误解，请你纠正我好吗？如果它是不正确的，我会删除它，否则我应该让它留下，因为它可以为任何初学者，如我实用。。。非常感谢…