Python 基于机器学习的文本分类

Python 基于机器学习的文本分类,python,tensorflow,machine-learning,Python,Tensorflow,Machine Learning,我有一个数据集,有新闻标题和新闻类别。我希望我能通过只输入标题来预测新闻的类别。 我需要能够分类文本。 谢谢你你的问题不能完全回答,但我可以给你一些出发点。 ,你需要做一些自己的研究 本教程将是一个很好的开始 对于当地的发展,我建议Anaconda用于图书馆等和Jupyter笔记本电脑。 或 你可以使用谷歌colab或微软Azure笔记本电脑 加载所需的库 加载数据,检查并清理数据 用于训练和测试的分割数据集 将文本转换为向量 对模型进行训练和测试,并进行预测 还有一些帮助代码 # Spli

我有一个数据集,有新闻标题和新闻类别。我希望我能通过只输入标题来预测新闻的类别。 我需要能够分类文本。
谢谢你

你的问题不能完全回答,但我可以给你一些出发点。 ,你需要做一些自己的研究 本教程将是一个很好的开始

对于当地的发展,我建议Anaconda用于图书馆等和Jupyter笔记本电脑。 或 你可以使用谷歌colab或微软Azure笔记本电脑

  • 加载所需的库
  • 加载数据,检查并清理数据
  • 用于训练和测试的分割数据集
  • 将文本转换为向量
  • 对模型进行训练和测试,并进行预测
还有一些帮助代码

# Split-out validation dataset
X = df_row['tweets'].values
Y = df_row['label'].values
validation_size = 0.20
seed = 7
X_train, X_test, Y_train, Y_test = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)

vocab_size = 1000    
# define Tokenizer with Vocab Size
tokenizer = Tokenizer(num_words=vocab_size)
tokenizer.fit_on_texts(X_train)
#X_test and X_train are data tweets(text columns)
X_train = tokenizer.texts_to_matrix(X_train, mode='tfidf')
#X_train is now in vectorized form

我对python中的机器学习不是很熟悉,但我使用了weka来分析文本,我使用了一种称为string to vector的方法,它基本上根据某些单词的频率进行预测,我对单词进行了词干分析和标记。