Python NLP、神经网络、文本聚类

Python NLP、神经网络、文本聚类,python,tensorflow,keras,nltk,gensim,Python,Tensorflow,Keras,Nltk,Gensim,编辑:我问这个问题是因为我花了40多个小时来试验这些软件包,感觉好像什么都没有得到 我对Python很陌生。我已经在我的组织成功地完成了一个随机森林分类器模型,该模型正在生产中,但神经网络超出了我目前的理解范围 我正在研究Python中的文本分类问题。我有243个样本(行),是从25份工作公告中提取的。我有一个列是字符串句子,还有一个列是它来自的职位公告 我正在工作中争取升职,我想这是一个学习神经网络的好机会。(我不想扮演数据科学家类型的角色,这让我很着迷。)每个样本都是来自一个职位公告的一个“

编辑:我问这个问题是因为我花了40多个小时来试验这些软件包,感觉好像什么都没有得到

我对Python很陌生。我已经在我的组织成功地完成了一个随机森林分类器模型,该模型正在生产中,但神经网络超出了我目前的理解范围

我正在研究Python中的文本分类问题。我有243个样本(行),是从25份工作公告中提取的。我有一个列是字符串句子,还有一个列是它来自的职位公告

我正在工作中争取升职,我想这是一个学习神经网络的好机会。(我不想扮演数据科学家类型的角色,这让我很着迷。)每个样本都是来自一个职位公告的一个“工作职责”,每个“文档”都是一个职位公告。一个职位公告可能有多个几乎相同的职责,每个职位公告应该有2-3个相同(抽象)的职责,最终,我假设从我的25个职位公告中会有15-20个“职责”集群

本质上,我想要的输出是将每一行(不管它来自哪个职位公告;我认为我的文档列不相关)分类到n个集群。我不希望集群有标签

我清理了243个样品;删除标点符号和停止字,并将其放在数据帧中

到目前为止,我试验过的软件包有Keras、doc2vec、word2vec、nltk和Soundex

  • 有没有一种方法可以在没有训练数据的情况下对我的样本进行聚类(无监督)

  • 我需要上传语料库来训练吗?语料库默认有分类标签吗

  • 从243个样本中获得n个聚类最简单的方法是什么(愿意牺牲准确性)(我将检查每个聚类的内容,并确定聚类后处理的标签)


  • 仅仅是一些模糊的方向指引就真的对我有帮助。

    作为一个以此为生的人

    40小时试验这些软件包

    可能还不够

    你需要知道的事情:

    • 自然语言处理(NLP)
    • 机器学习
    不幸的是,向数据扔包并不能解决问题

    现在回答您的问题:

     1. 有没有一种方法可以在没有训练数据的情况下对我的样本进行聚类(无监督)? 对

  • 从文本中获取功能。您应该知道哪些功能是重要的
  • 从这里运行其中一个算法
  •  2. 我需要上传语料库来训练吗?语料库默认有分类标签吗?
    • 你想训练什么
    • “语料库”是指一组文本。任何文本集合都可以是语料库。语料库不一定有分类标签
     3. 从243个样本中获得n个聚类最简单的方法是什么(愿意牺牲准确性)(我将检查每个聚类的内容,并确定聚类后处理的标签) 见问题1


    基于你的问题,我假设你是NLP领域的新手。我建议您亲自与了解NLP的人交谈。

    形式上的问题:“我如何分析数据”对于堆栈溢出来说太宽泛了。也许还有其他论坛可以让你得到这样的建议。这是一个正确的观点。这并不是“我如何分析数据”——我每周花50个小时来做这件事。我更倾向于寻找NN/NLP的定向方法。