Python NLP、神经网络、文本聚类_Python_Tensorflow_Keras_Nltk_Gensim

Python NLP、神经网络、文本聚类

python tensorflow keras

Python NLP、神经网络、文本聚类,python,tensorflow,keras,nltk,gensim,Python,Tensorflow,Keras,Nltk,Gensim,编辑：我问这个问题是因为我花了40多个小时来试验这些软件包，感觉好像什么都没有得到我对Python很陌生。我已经在我的组织成功地完成了一个随机森林分类器模型，该模型正在生产中，但神经网络超出了我目前的理解范围我正在研究Python中的文本分类问题。我有243个样本（行），是从25份工作公告中提取的。我有一个列是字符串句子，还有一个列是它来自的职位公告我正在工作中争取升职，我想这是一个学习神经网络的好机会。（我不想扮演数据科学家类型的角色，这让我很着迷。）每个样本都是来自一个职位公告的一个“

编辑：我问这个问题是因为我花了40多个小时来试验这些软件包，感觉好像什么都没有得到

我对Python很陌生。我已经在我的组织成功地完成了一个随机森林分类器模型，该模型正在生产中，但神经网络超出了我目前的理解范围

我正在研究Python中的文本分类问题。我有243个样本（行），是从25份工作公告中提取的。我有一个列是字符串句子，还有一个列是它来自的职位公告

我正在工作中争取升职，我想这是一个学习神经网络的好机会。（我不想扮演数据科学家类型的角色，这让我很着迷。）每个样本都是来自一个职位公告的一个“工作职责”，每个“文档”都是一个职位公告。一个职位公告可能有多个几乎相同的职责，每个职位公告应该有2-3个相同（抽象）的职责，最终，我假设从我的25个职位公告中会有15-20个“职责”集群

本质上，我想要的输出是将每一行（不管它来自哪个职位公告；我认为我的文档列不相关）分类到n个集群。我不希望集群有标签

我清理了243个样品；删除标点符号和停止字，并将其放在数据帧中

到目前为止，我试验过的软件包有Keras、doc2vec、word2vec、nltk和Soundex

有没有一种方法可以在没有训练数据的情况下对我的样本进行聚类（无监督）

我需要上传语料库来训练吗？语料库默认有分类标签吗

从243个样本中获得n个聚类最简单的方法是什么（愿意牺牲准确性）（我将检查每个聚类的内容，并确定聚类后处理的标签）

仅仅是一些模糊的方向指引就真的对我有帮助。

作为一个以此为生的人

40小时试验这些软件包

可能还不够

你需要知道的事情：

自然语言处理（NLP）
机器学习

不幸的是，向数据扔包并不能解决问题

现在回答您的问题：

1. 有没有一种方法可以在没有训练数据的情况下对我的样本进行聚类（无监督）？对

从文本中获取功能。您应该知道哪些功能是重要的

从这里运行其中一个算法

2. 我需要上传语料库来训练吗？语料库默认有分类标签吗？

你想训练什么
“语料库”是指一组文本。任何文本集合都可以是语料库。语料库不一定有分类标签

3. 从243个样本中获得n个聚类最简单的方法是什么（愿意牺牲准确性）（我将检查每个聚类的内容，并确定聚类后处理的标签）见问题1

基于你的问题，我假设你是NLP领域的新手。我建议您亲自与了解NLP的人交谈。

形式上的问题：“我如何分析数据”对于堆栈溢出来说太宽泛了。也许还有其他论坛可以让你得到这样的建议。这是一个正确的观点。这并不是“我如何分析数据”——我每周花50个小时来做这件事。我更倾向于寻找NN/NLP的定向方法。