Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/user-interface/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用scikit learn中的SVM的非整数字符串标签?python_Python_Nlp_Svm_Scikit Learn_Pos Tagger - Fatal编程技术网

如何使用scikit learn中的SVM的非整数字符串标签?python

如何使用scikit learn中的SVM的非整数字符串标签?python,python,nlp,svm,scikit-learn,pos-tagger,Python,Nlp,Svm,Scikit Learn,Pos Tagger,Scikit learn具有用于机器学习的相当用户友好的python模块 我正在尝试为自然语言处理(NLP)训练一个SVM标记器,其中我的标签和输入数据是单词和注释。例如,词性标记,而不是使用双/整数数据作为输入元组,我的元组将如下所示 有人能举一个例子说明我如何将SVM与字符串元组结合使用吗?此处给出的教程/文档适用于整数/双精度输入 这与其说是一个scikit或python问题,不如说是SVM的一般问题 支持向量机中的数据实例必须表示为各种标量的向量,通常是实数。因此,分类属性必须首先映射到

Scikit learn具有用于机器学习的相当用户友好的python模块

我正在尝试为自然语言处理(NLP)训练一个SVM标记器,其中我的标签和输入数据是单词和注释。例如,词性标记,而不是使用双/整数数据作为输入元组,我的元组将如下所示


有人能举一个例子说明我如何将SVM与字符串元组结合使用吗?此处给出的教程/文档适用于整数/双精度输入

这与其说是一个scikit或python问题,不如说是SVM的一般问题

支持向量机中的数据实例必须表示为各种标量的向量,通常是实数。因此,分类属性必须首先映射到某些数值,然后才能包含在支持向量机中

一些分类属性更自然/逻辑地映射到某个尺度(一些松散的“度量”)。例如,优先级字段的(1、2、3、5)映射值为('no-rush'、'standard delivery'、'emergency'和'Most-emergency'),可能有意义。另一个例子是颜色可以映射到3个维度,每个维度对应一个红色、绿色、蓝色组件等。
其他属性的语义不允许任何近似的逻辑映射到比例上;然后,必须在SVM的一个(或可能多个)维度上为这些属性的各种值指定任意数值。可以理解的是,如果支持向量机具有许多这些任意的“非度量”维度,那么它在正确分类项目方面的效率可能会降低,因为支持向量机工作中隐含的距离计算和聚类逻辑在语义上的相关性较小

这一观察结果并不意味着当项目包括非数字或非“度量”维度时,支持向量机根本无法使用,但它肯定提醒我们,特征选择和特征映射通常是分类器的非常敏感参数,特别是支持向量机


在词性标注的特殊情况下。。。恐怕我现在很困惑,关于标签语料库的哪些属性要使用,以及如何将这些属性映射到数值。我知道,使用支持向量机可以生成非常高效的POS标记器,而且一些学术论文也描述了基于支持向量机的标记器。然而,我更熟悉标记的其他方法(例如HMMs或最大熵)。

大多数机器学习算法处理的输入样本是浮点向量,因此一个小的(通常是欧几里德的)一对样本之间的距离表示两个样本在某种程度上与当前问题相关
相似

机器学习实践者有责任找到一组好的浮点特征进行编码此编码是特定于域的,因此,没有通用的方法从所有应用程序域(各种NLP任务、计算机视觉、事务日志分析…)的原始数据构建表示。这部分机器学习建模工作称为特征提取。当涉及到大量的手工工作时,这通常被称为功能工程


现在针对您的具体问题,可以使用scikit learn对句子中感兴趣的单词周围的单词窗口的词性标记(例如,用于序列标记,如命名实体检测)进行适当编码。

+1。请注意,对于词性标记,词性窗口只能向一个方向延伸。单词窗口还可以提供良好的功能(至少,它们对NER和WSD很有效),以及所考虑单词的固定长度词缀。