python中蛋白质序列的一种热编码_Python_Machine Learning_One Hot Encoding

python中蛋白质序列的一种热编码

python machine-learning

python中蛋白质序列的一种热编码,python,machine-learning,one-hot-encoding,Python,Machine Learning,One Hot Encoding,我需要将squences作为训练数据，并将输出列作为标签。但是，在我必须对序列应用一个热编码之前，正如您看到的序列长度不同，请建议我如何对所有氨基酸应用一个热编码，以分配不同的整数值其他人无法确定存储数据集的最佳方式。这是一个只能由对目标和数据集有良好理解的人做出的决定。ν（x）-您的特征向量-总是非常特定于您的数据例如，如果你有DNA，你可能会有某个密码子是否存在的特征，或者腺嘌呤数量的容器等，这是非常主观的，即使有很好的理解，调整也是一项非常重要的任务您必须非常小心，因为如果生成的特征向

我需要将squences作为训练数据，并将输出列作为标签。但是，在我必须对序列应用一个热编码之前，正如您看到的序列长度不同，请建议我如何对所有氨基酸应用一个热编码，以分配不同的整数值

其他人无法确定存储数据集的最佳方式。这是一个只能由对目标和数据集有良好理解的人做出的决定。ν（x）-您的特征向量-总是非常特定于您的数据

例如，如果你有DNA，你可能会有某个密码子是否存在的特征，或者腺嘌呤数量的容器等，这是非常主观的，即使有很好的理解，调整也是一项非常重要的任务

您必须非常小心，因为如果生成的特征向量不正确，您可能会在数据中为特定类别创建偏差，使其具有特定长度、特定氨基酸数量等，而这些偏差并不能真正代表您要分类的内容。这可能导致测试和培训的错误率具有欺骗性，并产生不正确的结论

老实说，如果你在大学里，我建议你在计算机科学系或其他类似的机构里找个人来帮助你的项目。虽然使用预烘焙的sklearn编码似乎很诱人，但对于您的案例来说，这并不是一个好的解决方案。由于数据量有限，在序列长度方面很可能存在异常情况，试图将每个字符转换为其自身的特征将导致拟合性能不佳

至于实际将数据读入python，它是一个csv，因此您可以使用open（）和split（“，”）手动解析它，或者您可以使用一些流行的库解析csv格式。YMMV

分享你的研究成果对每个人都有帮助。告诉我们您尝试了什么，以及为什么它不能满足您的需求。这表明你花了时间来帮助自己，它使我们避免重复显而易见的答案，最重要的是，它帮助你得到一个更具体和相关的答案！另请参见：from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import onehotcoder from numpy import array#define example values=array（data）print（values）#integer encode label_encoder=LabelEncoder（）integer_encoded=label_encoder.fit_transform（values）print（integer#）print（integer#）和我使用的第二个代码是df=pd（'C:/Users/alpha/Desktop/DATASET2.csv'，names=（'X1'，'Y'），delimiter='，'）X=df.iloc[：，0]。值Y=df.iloc[：，1:2]。来自sklearn的值。预处理导入LabelEncoder，OneHotEncoder LabelEncoder\u X=LabelEncoder（）#编码值介于0和n类之间的标签-1.X[：，0]=LabelEncoder\u X.fit\u变换（X[：，0]）#所有行和第一列onehotencoder=onehotencoder（分类功能=[0]）X=onehotencoder.fit_变换（X）。toarray（）labelencoder_Y=labelencoder（）Y=labelencoder_Y.fit_变换（Y）请不要在评论中发布代码-这简直是不可读的！代码首先应该是您问题的一部分，因此请相应地编辑和更新您的问题！