Machine learning 如何将变长字符串转换为向量?
我正在研究分类算法,我得到了不同的字符串代码,它们有一些模式Machine learning 如何将变长字符串转换为向量?,machine-learning,classification,word2vec,Machine Learning,Classification,Word2vec,我正在研究分类算法,我得到了不同的字符串代码,它们有一些模式 |:-----------|------------:|:------------:| | Column 1 | Column 2 | Column 3 | |:-----------|------------:|:------------:| | MN009 | JIK9PO | LEFTu | | MN010 | JIK9POS | LEFTu |
|:-----------|------------:|:------------:|
| Column 1 | Column 2 | Column 3 |
|:-----------|------------:|:------------:|
| MN009 | JIK9PO | LEFTu |
| MN010 | JIK9POS | LEFTu |
| MN011 | JIK9POKI | LEFTu |
| MN012 | KIJU | LEFTu |
| MN013 | RANDOM | LEFTu |
| MN014 | FT | LEFTu |
|:-----------|------------:|:------------:|
对于第1列和第3列,特征集可以是向量长度5
但我不知道如何创建可以容纳第2列的功能集
注意事项:
希望我清楚这个问题。谢谢:)有两种解决方案:
- 当前存在的最长样本(较大的特征空间⇒ 时间/内存复杂性(后果)
- 或缩短长度(信息丢失)⇒ 预测能力(惩罚)。信息丢失源于忽略序列 超过该长度或截断它们并使用它们的截断 版本 在这两种情况下,您可能都应该量化您选择的影响 (即,通过丢弃/截断,我从数据中丢弃了多少信息,或者与使用较小长度的数据相比,我的问题空间要大多少)
我不确定我是否理解你的问题。“适应”是什么意思?这些是。。。特征?它们怎么了?我只想用字符串值创建特征。“适应”并没有特别的意思,抱歉搞混了。这不是一个真正的编程问题,也许更适合@Amit。您找到解决问题的方法了吗?我正在做类似的事情。