Python Scikit混合使用文本和数字数据进行学习

Python Scikit混合使用文本和数字数据进行学习,python,csv,machine-learning,scikit-learn,Python,Csv,Machine Learning,Scikit Learn,我的数据以CSV的形式提供给我,格式如下(这是一个样本行,是一万个样本行中的一个) 每个文本字符串都类似于这种字符串;数字的也一样 我正在寻找一种基于文本相关性预测数字的方法 在scikit learn中有什么方法可以做到这一点吗?您最好在字符串上生成一些聚合函数,并将它们用作预测剩余值的功能。简单聚合函数的示例可能是每个字母的出现次数、长度、第一个字母、最后一个字母、最常见的字母、可能是每对字母之间的转换次数等 这是我在没有特定领域背景知识的情况下能想到的最好的方法 这篇课文的意思是什么?没有

我的数据以CSV的形式提供给我,格式如下(这是一个样本行,是一万个样本行中的一个)

每个文本字符串都类似于这种字符串;数字的也一样

我正在寻找一种基于文本相关性预测数字的方法


在scikit learn中有什么方法可以做到这一点吗?

您最好在字符串上生成一些聚合函数,并将它们用作预测剩余值的功能。简单聚合函数的示例可能是每个字母的出现次数、长度、第一个字母、最后一个字母、最常见的字母、可能是每对字母之间的转换次数等


这是我在没有特定领域背景知识的情况下能想到的最好的方法

这篇课文的意思是什么?没有更多的背景,很难回答这个问题。我们必须理解“相关性”的含义——文本是用来表示蛋白质的一级结构;其他值是与该蛋白质相关联的值。数字有任何值,或者可能的值是否固定(即聚类/分类问题)?@d909所有条目的蛋白质字符串大小是否相同?@a_guest数字可以有任何值;范围不是很大,它们只是整数。
FEIPDDVPLPAGWEMAKTSSGQRYFLNHIDQTTTWQDPRKGPPPY,0,0,13,0,0,4,12,16