Python NLP、神经网络、文本聚类
编辑:我问这个问题是因为我花了40多个小时来试验这些软件包,感觉好像什么都没有得到 我对Python很陌生。我已经在我的组织成功地完成了一个随机森林分类器模型,该模型正在生产中,但神经网络超出了我目前的理解范围 我正在研究Python中的文本分类问题。我有243个样本(行),是从25份工作公告中提取的。我有一个列是字符串句子,还有一个列是它来自的职位公告 我正在工作中争取升职,我想这是一个学习神经网络的好机会。(我不想扮演数据科学家类型的角色,这让我很着迷。)每个样本都是来自一个职位公告的一个“工作职责”,每个“文档”都是一个职位公告。一个职位公告可能有多个几乎相同的职责,每个职位公告应该有2-3个相同(抽象)的职责,最终,我假设从我的25个职位公告中会有15-20个“职责”集群 本质上,我想要的输出是将每一行(不管它来自哪个职位公告;我认为我的文档列不相关)分类到n个集群。我不希望集群有标签 我清理了243个样品;删除标点符号和停止字,并将其放在数据帧中 到目前为止,我试验过的软件包有Keras、doc2vec、word2vec、nltk和SoundexPython NLP、神经网络、文本聚类,python,tensorflow,keras,nltk,gensim,Python,Tensorflow,Keras,Nltk,Gensim,编辑:我问这个问题是因为我花了40多个小时来试验这些软件包,感觉好像什么都没有得到 我对Python很陌生。我已经在我的组织成功地完成了一个随机森林分类器模型,该模型正在生产中,但神经网络超出了我目前的理解范围 我正在研究Python中的文本分类问题。我有243个样本(行),是从25份工作公告中提取的。我有一个列是字符串句子,还有一个列是它来自的职位公告 我正在工作中争取升职,我想这是一个学习神经网络的好机会。(我不想扮演数据科学家类型的角色,这让我很着迷。)每个样本都是来自一个职位公告的一个“
仅仅是一些模糊的方向指引就真的对我有帮助。作为一个以此为生的人 40小时试验这些软件包 可能还不够 你需要知道的事情:
- 自然语言处理(NLP)
- 机器学习
- 你想训练什么
- “语料库”是指一组文本。任何文本集合都可以是语料库。语料库不一定有分类标签
基于你的问题,我假设你是NLP领域的新手。我建议您亲自与了解NLP的人交谈。形式上的问题:“我如何分析数据”对于堆栈溢出来说太宽泛了。也许还有其他论坛可以让你得到这样的建议。这是一个正确的观点。这并不是“我如何分析数据”——我每周花50个小时来做这件事。我更倾向于寻找NN/NLP的定向方法。