Python Scikit混合使用文本和数字数据进行学习_Python_Csv_Machine Learning_Scikit Learn

Python Scikit混合使用文本和数字数据进行学习

python csv machine-learning scikit-learn

Python Scikit混合使用文本和数字数据进行学习,python,csv,machine-learning,scikit-learn,Python,Csv,Machine Learning,Scikit Learn,我的数据以CSV的形式提供给我，格式如下（这是一个样本行，是一万个样本行中的一个）每个文本字符串都类似于这种字符串；数字的也一样我正在寻找一种基于文本相关性预测数字的方法在scikit learn中有什么方法可以做到这一点吗？您最好在字符串上生成一些聚合函数，并将它们用作预测剩余值的功能。简单聚合函数的示例可能是每个字母的出现次数、长度、第一个字母、最后一个字母、最常见的字母、可能是每对字母之间的转换次数等这是我在没有特定领域背景知识的情况下能想到的最好的方法这篇课文的意思是什么？没有

我的数据以CSV的形式提供给我，格式如下（这是一个样本行，是一万个样本行中的一个）

每个文本字符串都类似于这种字符串；数字的也一样

我正在寻找一种基于文本相关性预测数字的方法

在scikit learn中有什么方法可以做到这一点吗？

您最好在字符串上生成一些聚合函数，并将它们用作预测剩余值的功能。简单聚合函数的示例可能是每个字母的出现次数、长度、第一个字母、最后一个字母、最常见的字母、可能是每对字母之间的转换次数等

这是我在没有特定领域背景知识的情况下能想到的最好的方法

这篇课文的意思是什么？没有更多的背景，很难回答这个问题。我们必须理解“相关性”的含义——文本是用来表示蛋白质的一级结构；其他值是与该蛋白质相关联的值。数字有任何值，或者可能的值是否固定（即聚类/分类问题）？@d909所有条目的蛋白质字符串大小是否相同？@a_guest数字可以有任何值；范围不是很大，它们只是整数。

FEIPDDVPLPAGWEMAKTSSGQRYFLNHIDQTTTWQDPRKGPPPY,0,0,13,0,0,4,12,16