Python 将分类数据从CSV加载到Scikit学习以进行机器学习

Python 将分类数据从CSV加载到Scikit学习以进行机器学习,python,csv,machine-learning,scikit-learn,classification,Python,Csv,Machine Learning,Scikit Learn,Classification,我正在学习Scikit,学习为推文分类。我有一个csv,在一个专栏上有tweets,在下一个专栏中有0-11级的tweets。我经历了我认为我理解了实际的分类是如何完成的,但我不认为我真正理解了数据格式。在本教程中,材料位于文件夹中的文件中,文件夹名称用作分类标记 在我的例子中,我应该从csv文件加载数据,显然我需要构建数据结构,手动将其馈送到矢量器和分类器。我应该如何处理这个问题?我认为教程在这方面有点模棱两可,因为数据加载是自动完成的,对于自定义数据的结构和加载我一无所知。通常您会使用,或者

我正在学习Scikit,学习为推文分类。我有一个csv,在一个专栏上有tweets,在下一个专栏中有0-11级的tweets。我经历了我认为我理解了实际的分类是如何完成的,但我不认为我真正理解了数据格式。在本教程中,材料位于文件夹中的文件中,文件夹名称用作分类标记

在我的例子中,我应该从csv文件加载数据,显然我需要构建数据结构,手动将其馈送到矢量器和分类器。我应该如何处理这个问题?我认为教程在这方面有点模棱两可,因为数据加载是自动完成的,对于自定义数据的结构和加载我一无所知。

通常您会使用,或者如果您不想使用pandas依赖项,或者甚至使用标准库将CV加载到列表中。它看起来是这样的:

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

df = pd.read_csv('example.csv', header=None, sep=',', 
                 names=['tweets', 'class'])   # columns names if no header
vect = TfidfVectorizer()
X = vect.fit_transform(df['tweets']) 
y = df['class']

一旦你有了
X
y
,你就可以把它们输入分类器。

你可能想看看
pandas
文档。特别是熊猫。阅读表格和熊猫。阅读csv可能会引起您的兴趣。谢谢!很高兴看到它毕竟是那么简单。我有时间的时候应该好好看看熊猫。