Python 将DNA序列转换为特征

Python 将DNA序列转换为特征,python,bioinformatics,dna-sequence,Python,Bioinformatics,Dna Sequence,我有一个包含DNA序列的数据集,我想把它们转换成数字表示。如本文件所述: 这是什么过程(转换),我想搜索一下 如何在python中应用它 可以将其作为数据集输入到大型数组中吗 我相信您所指的流程是。首先,您需要使用宽度为3的滑动窗口将您的DNA序列转换为3bp的单词序列。请看这里: 所以你应该有一个类似DNA“单词”的列表(例如,['aaa',tgc']),然后你需要将每个单词转换成一个向量。实现这一点的一种方法是创建一个字典,其中的键对应于所有可能的单词和具有一个热表示的值。然后,您可以简

我有一个包含DNA序列的数据集,我想把它们转换成数字表示。如本文件所述:

  • 这是什么过程(转换),我想搜索一下
  • 如何在python中应用它
  • 可以将其作为数据集输入到大型数组中吗
      我相信您所指的流程是。首先,您需要使用宽度为3的滑动窗口将您的DNA序列转换为3bp的单词序列。请看这里:

      所以你应该有一个类似DNA“单词”的列表(例如,
      ['aaa',tgc']
      ),然后你需要将每个单词转换成一个向量。实现这一点的一种方法是创建一个字典,其中的键对应于所有可能的单词和具有一个热表示的值。然后,您可以简单地使用列表理解和字典查找将每个单词转换为相应的向量。这可能不是最有效的方法,但这只是一个开始。sklearn有,但它只对整数有效

      另见