Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/354.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何在机器学习算法中部署我的功能?_Python_Machine Learning_Sentiment Analysis_Feature Selection - Fatal编程技术网

Python 如何在机器学习算法中部署我的功能?

Python 如何在机器学习算法中部署我的功能?,python,machine-learning,sentiment-analysis,feature-selection,Python,Machine Learning,Sentiment Analysis,Feature Selection,我是ML的新手,所以我有一个非常基本的问题。如果有人能为我澄清一下,我将不胜感激 假设我有一组标记为否定和肯定的tweet。我想做一些情绪分析 我提取了3个基本特征: 情感图标 感叹号 激烈的言辞,真的等等。。 我应该如何将这些特性与SVM或其他ML算法结合使用 换句话说,我应该如何在SVM算法中部署提取的特征? 我正在使用python,已经知道应该如何运行SVM或其他算法,但我不知道提取的特征和它们在每个算法中的作用之间的关系 根据一些专家的回答,我更新了我的问题: 首先,我想感谢你的时间和有

我是ML的新手,所以我有一个非常基本的问题。如果有人能为我澄清一下,我将不胜感激

假设我有一组标记为否定和肯定的tweet。我想做一些情绪分析

我提取了3个基本特征:

情感图标 感叹号 激烈的言辞,真的等等。。 我应该如何将这些特性与SVM或其他ML算法结合使用

换句话说,我应该如何在SVM算法中部署提取的特征? 我正在使用python,已经知道应该如何运行SVM或其他算法,但我不知道提取的特征和它们在每个算法中的作用之间的关系

根据一些专家的回答,我更新了我的问题:


首先,我想感谢你的时间和有价值的解释。我认为我的问题正在解决…所以按照你所说的,每个ML算法可能需要一些矢量化的特征,我应该找到一种方法来将我的特征表示为矢量。我想通过一个基本的例子来解释我从你的解释中得到的东西


假设我有表情图标,例如3个图标作为一个功能:

1-因此,我应该用一个有3个值的向量来表示这个特征

2-矢量化特征可以这样初始化:[0,0,0]每个值表示一个图标=:和:和:p

3-接下来,我应该浏览每条推文,检查推文是否有图标。例如[2,1,0]显示tweet有::2次,和:1次,和:p没有时间

4-在我检查了所有的tweet后,我会得到一个大向量,大小为n*3 n是我的tweet总数

对于其他特征,应进行5-阶段1-4


6-然后我应该使用SVM的m模型合并所有这些特征,m是我的特征数,然后通过多数投票或其他方法进行分类。 或者应该通过连接所有向量来创建一个长向量,并将其提供给SVM

如果有任何误解,请你纠正我好吗?如果它是不正确的,我会删除它,否则我应该让它留下,因为它可以为任何初学者,如我实用。。。 感谢大家…

基本上,为了使事情变得简单和肤浅,所有算法都采用某种数字向量来表示特征

真正的工作是找到如何将特征表示为向量,从而产生最佳结果,这取决于特征本身和使用的算法

例如,要使用基本上可以找到分隔平面的SVM,您需要将特征投影到一些向量集上,这些向量集可以产生足够好的分隔效果,因此,例如,您可以这样处理您的特征:

情感图标-创建一个表示该推文中所有图标的向量,将每个图标定义为从1到n的索引,因此由[0,0,0,2,1]表示的推文表示第四个和第五个图标分别出现在他的身体中2次和1次

感叹号-您可以简单地计算出现的次数。更好的方法是表示有关感叹号的更多信息,如句子中的位置等

强度词-您可以使用与情绪图标相同的方法

基本上,每个特征都可以在SVM模型中单独使用来分类好的和坏的

您可以使用3个SVM模型合并所有这些特征,然后通过多数投票或其他方法进行分类

您可以通过连接所有向量来创建一个长向量,并将其提供给SVM

这只是一种方法,您可以调整它或使用其他方法来更好地适应您的数据、模型和目标


我是否应该每次使用一个功能训练数据集?我读了几篇文章,他们只是在说:我们应该提取功能并在我们的算法中部署它们,但如何实现呢?基本功能在功能空间中充当推特的坐标。对于有监督的学习,你需要把你认为是训练数据的微博标记为正面或负面,然后使用SVM或其他方法。但我的问题是,我不明白什么时候以及如何使用这些功能?!!例如,在情绪分析任务中,我们都知道表情词典是一项基本功能,它可以作为tweet情绪的线索。但我不知道该如何将这条线索应用到我的算法中HMI将列举情感图标,并将它们与感叹号的数量和强度词的数量一起用作整数,以便每条推特都有一个3x1特征向量“10,0,0”,例如,连同其标签0-正,1-否定您还想在0和1之间规范化这些功能。首先,我想感谢您的时间和有价值的解释。我认为我的问题正在解决…所以按照你所说的,每个ML算法可能需要一些矢量化的特征,我应该找到一种方法来将我的特征表示为矢量。我想解释一下我从你的实验中得到了什么
通过一个基本的例子来解释:假设我有表情图标,例如3个图标作为一个功能。1-因此,我应该用一个有3个值的向量来表示这个特征。2-矢量化特征可以这样初始化:[0,0,0]每个值表示一个图标=:和:和:P。3-接下来,我应该浏览每条推文,检查推文是否有图标。例如[2,1,0]显示tweet有::2次,和:1次,和:p没有时间。4-在我检查了所有的tweet后,我会得到一个大向量,大小为n*3 n是我的tweet总数。5-阶段1-4应针对其他特征进行。6-然后我应使用SVM的m模型合并所有这些特征m是我的特征数,然后通过多数投票或其他方法进行分类。或者应该通过连接所有向量来创建一个长向量,并将其提供给SVM。如果有任何误解,请你纠正我好吗?如果它是不正确的,我会删除它,否则我应该让它留下,因为它可以为任何初学者,如我实用。。。非常感谢…