Machine learning 使用机器学习算法对单词进行矢量化

Machine learning 使用机器学习算法对单词进行矢量化,machine-learning,classification,svm,words,Machine Learning,Classification,Svm,Words,我正在测试一种想法,即使用回声状态网络的分层组合,将任何符号序列向量化为R^n中的固定大小向量。目标是将这些序列分类为向量(有许多机器学习算法用于固定大小的实向量) 特别是,我正在用英语单词测试这个算法,试图将它们归类为名词或形容词。我的数据集在这里: 使用支持向量机进行分类,我得到了9%的误差,请有人告诉我相关的论文或结果进行比较 谢谢 几年前,我研究了一种算法,该算法使用马尔可夫链将字符串分类为正确的俄语单词或一些随机字符串(不使用任何字典)。以下是翻译文章的链接: 我得到了91%左右的结

我正在测试一种想法,即使用回声状态网络的分层组合,将任何符号序列向量化为R^n中的固定大小向量。目标是将这些序列分类为向量(有许多机器学习算法用于固定大小的实向量)

特别是,我正在用英语单词测试这个算法,试图将它们归类为名词或形容词。我的数据集在这里:

使用支持向量机进行分类,我得到了9%的误差,请有人告诉我相关的论文或结果进行比较


谢谢

几年前,我研究了一种算法,该算法使用马尔可夫链将字符串分类为正确的俄语单词或一些随机字符串(不使用任何字典)。以下是翻译文章的链接:


我得到了91%左右的结果(和你们的问题非常相似,我觉得非常有趣)。在我的研究中,我遇到了另一项研究,作者试图将一个短语(至少由三个单词组成的字符串)分类为英语、法语或德语。他们的成功率稍低(约80%)。我在互联网上找不到他们工作的链接,但它被称为-Murray“概率语言建模”

你如何使用支持向量机进行分类?哪个公式-c-svm、nu-svm等?支持向量机对其参数非常敏感。您使用的是哪个内核?您使用的内核参数是什么?C/nu的值


正确的参数会因数据集的不同而有所不同,一般来说,部分数据用于找到内核和参数的最佳组合。错误的组合很容易让你的结果大打折扣。也许您已经这样做了,但您所说的并不清楚,这可能会产生很大的影响。

我正在使用c-svm(在python中使用mdp,它基于libsvm)。内核是线性的,但我并没有真正调整libsvm给出的参数,我只是使用默认值(根据libsvm文档,c=1),因为我想做快速测试,并知道它离最新技术有多远。不幸的是,SVM不是一个好的“快速测试”分类器——要获得好的结果,需要调整参数。我推荐reading、Chih Chung Chang和Chih Jen Lin。这篇文章讨论了如何确保数据正确缩放,以及参数调整是否良好。如果您在不进行调整的情况下获得91%的准确率,您可能会做得更好。在确定最新技术方面——我的研究不在这一领域,所以我不马上知道,但快速浏览一下这篇文章:引用超过1500篇。他们声称准确率为99%,尽管我只是略读了一下。从这里开始,看看引用这篇论文的论文,找到更多的最新研究成果。如果你还记得我在哪里可以找到这些数据集进行测试,比较一下会很有趣。谢谢很好的例子——但90%似乎是一个普遍常数。你能把一些分类错误的单词贴出来吗?什么是n,如何规范化n向量?