Python 将分类数据从CSV加载到Scikit学习以进行机器学习_Python_Csv_Machine Learning_Scikit Learn_Classification

Python 将分类数据从CSV加载到Scikit学习以进行机器学习

python csv machine-learning scikit-learn

Python 将分类数据从CSV加载到Scikit学习以进行机器学习,python,csv,machine-learning,scikit-learn,classification,Python,Csv,Machine Learning,Scikit Learn,Classification,我正在学习Scikit，学习为推文分类。我有一个csv，在一个专栏上有tweets，在下一个专栏中有0-11级的tweets。我经历了我认为我理解了实际的分类是如何完成的，但我不认为我真正理解了数据格式。在本教程中，材料位于文件夹中的文件中，文件夹名称用作分类标记在我的例子中，我应该从csv文件加载数据，显然我需要构建数据结构，手动将其馈送到矢量器和分类器。我应该如何处理这个问题？我认为教程在这方面有点模棱两可，因为数据加载是自动完成的，对于自定义数据的结构和加载我一无所知。通常您会使用，或者

我正在学习Scikit，学习为推文分类。我有一个csv，在一个专栏上有tweets，在下一个专栏中有0-11级的tweets。我经历了我认为我理解了实际的分类是如何完成的，但我不认为我真正理解了数据格式。在本教程中，材料位于文件夹中的文件中，文件夹名称用作分类标记

在我的例子中，我应该从csv文件加载数据，显然我需要构建数据结构，手动将其馈送到矢量器和分类器。我应该如何处理这个问题？我认为教程在这方面有点模棱两可，因为数据加载是自动完成的，对于自定义数据的结构和加载我一无所知。

通常您会使用，或者如果您不想使用pandas依赖项，或者甚至使用标准库将CV加载到列表中。它看起来是这样的：

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

df = pd.read_csv('example.csv', header=None, sep=',', 
                 names=['tweets', 'class'])   # columns names if no header
vect = TfidfVectorizer()
X = vect.fit_transform(df['tweets']) 
y = df['class']

一旦你有了

和

，你就可以把它们输入分类器。

你可能想看看

pandas

文档。特别是熊猫。阅读表格和熊猫。阅读csv可能会引起您的兴趣。谢谢！很高兴看到它毕竟是那么简单。我有时间的时候应该好好看看熊猫。