Machine learning 文本挖掘与机器学习

Machine learning 文本挖掘与机器学习,machine-learning,nlp,cluster-analysis,text-mining,named-entity-recognition,Machine Learning,Nlp,Cluster Analysis,Text Mining,Named Entity Recognition,我有一个单词和文本的数据集,我想进行聚类(通过K-means)或任何其他无监督/有监督的学习方法来区分单词。例如,单词“John”将被分类为一个名字(并将与其他人名进行聚类),“brazil”作为一个地方,等等。。。 有没有一个模型可以用来解决这个问题。 我听说过N-gram,但我不知道如何在x、y图或类似图上绘制Ngrams概率 如果你有任何精彩的例子,word2vec和嵌入怎么样 如果您只关心“名称”和“地点”,则应寻找命名实体解决方案。否则,您可能希望找到/开发一个良好的标签数据源(使用您

我有一个单词和文本的数据集,我想进行聚类(通过K-means)或任何其他无监督/有监督的学习方法来区分单词。例如,单词“John”将被分类为一个名字(并将与其他人名进行聚类),“brazil”作为一个地方,等等。。。 有没有一个模型可以用来解决这个问题。 我听说过N-gram,但我不知道如何在x、y图或类似图上绘制Ngrams概率

如果你有任何精彩的例子,word2vec和嵌入怎么样

如果您只关心“名称”和“地点”,则应寻找命名实体解决方案。否则,您可能希望找到/开发一个良好的标签数据源(使用您关心的标签),并在此基础上学习分类器。您正在描述一个受监督的任务,即分类。我希望对数据进行聚类,然后做出决策,以便我可以近似单词类型(这些聚类最终将被标记为类)如果您没有预定义的类,word2vec是一个很好的解决方案。这里是tensorflow中的解决方案,您可以用向量的形式表示单词,然后使用例如余弦距离进行聚类。如果您有预定义的类,那么您必须使用监督学习。