Machine learning 如何将变长字符串转换为向量?

Machine learning 如何将变长字符串转换为向量?,machine-learning,classification,word2vec,Machine Learning,Classification,Word2vec,我正在研究分类算法,我得到了不同的字符串代码,它们有一些模式 |:-----------|------------:|:------------:| | Column 1 | Column 2 | Column 3 | |:-----------|------------:|:------------:| | MN009 | JIK9PO | LEFTu | | MN010 | JIK9POS | LEFTu |

我正在研究分类算法,我得到了不同的字符串代码,它们有一些模式

|:-----------|------------:|:------------:|
| Column 1   | Column 2    | Column 3     |
|:-----------|------------:|:------------:|
| MN009      | JIK9PO      | LEFTu        |
| MN010      | JIK9POS     | LEFTu        |
| MN011      | JIK9POKI    | LEFTu        |
| MN012      | KIJU        | LEFTu        |
| MN013      | RANDOM      | LEFTu        |
| MN014      | FT          | LEFTu        |
|:-----------|------------:|:------------:|
对于第1列和第3列,特征集可以是向量长度5

但我不知道如何创建可以容纳第2列的功能集

注意事项:

  • 创建大小等于最长字符串大小的特征向量 值,对于较小的字符串,添加一些填充符
  • 将字符串截断为固定长度,如此处的5,并忽略额外长度 人物

  • 希望我清楚这个问题。谢谢:)

    有两种解决方案:

  • 你提到的那个,;预定义长度,零填充序列 这还不够。此长度可以设置为:

    • 当前存在的最长样本(较大的特征空间⇒ 时间/内存复杂性(后果)
    • 或缩短长度(信息丢失)⇒ 预测能力(惩罚)。信息丢失源于忽略序列 超过该长度或截断它们并使用它们的截断 版本

      在这两种情况下,您可能都应该量化您选择的影响 (即,通过丢弃/截断,我从数据中丢弃了多少信息,或者与使用较小长度的数据相比,我的问题空间要大多少)

  • 动态图,本质上是可变形状的网络,可以处理不同大小的序列。这些能力由提供,并且(相对)易于实现(所以问题是)
  • 看看这些文件, 帮助您避免动态图形,并允许网络忽略填充输入。这将是直接实施的

    打包包含可变长度填充序列的变量


    我不确定我是否理解你的问题。“适应”是什么意思?这些是。。。特征?它们怎么了?我只想用字符串值创建特征。“适应”并没有特别的意思,抱歉搞混了。这不是一个真正的编程问题,也许更适合@Amit。您找到解决问题的方法了吗?我正在做类似的事情。