Machine learning 如何将变长字符串转换为向量？_Machine Learning_Classification_Word2vec

Machine learning 如何将变长字符串转换为向量？

machine-learning

Machine learning 如何将变长字符串转换为向量？,machine-learning,classification,word2vec,Machine Learning,Classification,Word2vec,我正在研究分类算法，我得到了不同的字符串代码，它们有一些模式 |:-----------|------------:|:------------:| | Column 1 | Column 2 | Column 3 | |:-----------|------------:|:------------:| | MN009 | JIK9PO | LEFTu | | MN010 | JIK9POS | LEFTu |

我正在研究分类算法，我得到了不同的字符串代码，它们有一些模式

|:-----------|------------:|:------------:|
| Column 1   | Column 2    | Column 3     |
|:-----------|------------:|:------------:|
| MN009      | JIK9PO      | LEFTu        |
| MN010      | JIK9POS     | LEFTu        |
| MN011      | JIK9POKI    | LEFTu        |
| MN012      | KIJU        | LEFTu        |
| MN013      | RANDOM      | LEFTu        |
| MN014      | FT          | LEFTu        |
|:-----------|------------:|:------------:|

对于第1列和第3列，特征集可以是向量长度5

但我不知道如何创建可以容纳第2列的功能集

注意事项：

创建大小等于最长字符串大小的特征向量值，对于较小的字符串，添加一些填充符

将字符串截断为固定长度，如此处的5，并忽略额外长度人物

希望我清楚这个问题。谢谢：）

有两种解决方案：

你提到的那个,；预定义长度，零填充序列这还不够。此长度可以设置为：

当前存在的最长样本（较大的特征空间⇒ 时间/内存复杂性（后果）
或缩短长度（信息丢失）⇒ 预测能力（惩罚）。信息丢失源于忽略序列超过该长度或截断它们并使用它们的截断版本
在这两种情况下，您可能都应该量化您选择的影响（即，通过丢弃/截断，我从数据中丢弃了多少信息，或者与使用较小长度的数据相比，我的问题空间要大多少）

动态图，本质上是可变形状的网络，可以处理不同大小的序列。这些能力由提供，并且（相对）易于实现（所以问题是）

看看这些文件，帮助您避免动态图形，并允许网络忽略填充输入。这将是直接实施的

打包包含可变长度填充序列的变量

我不确定我是否理解你的问题。“适应”是什么意思？这些是。。。特征？它们怎么了？我只想用字符串值创建特征。“适应”并没有特别的意思，抱歉搞混了。这不是一个真正的编程问题，也许更适合@Amit。您找到解决问题的方法了吗？我正在做类似的事情。