Python NLP和几乎不提供上下文的词聚类

Python NLP和几乎不提供上下文的词聚类,python,python-2.7,nlp,cluster-analysis,unsupervised-learning,Python,Python 2.7,Nlp,Cluster Analysis,Unsupervised Learning,我的数据集包含用户为分类变量生成的所有内容。我正试图找到一种将这些特征组合在一起的方法。其中一列是“degree_type”,可以派生很少的上下文。该栏的值从“学士、工商管理硕士、博士、学位、法律硕士”等不同。现在,我使用Levenshtein来测量这些值与我定义的一组值 是否建议合并其他栏目?比如“学科”(计算机科学、历史等)和“机构”(斯坦福、哈佛等)?请注意,这些其他列与“学位类型”有相同的问题 我认为一定有更好的方法根据我没有看到的聚类算法对这些数据进行分组?非常感谢您提供的任何建议 你

我的数据集包含用户为分类变量生成的所有内容。我正试图找到一种将这些特征组合在一起的方法。其中一列是“degree_type”,可以派生很少的上下文。该栏的值从“学士、工商管理硕士、博士、学位、法律硕士”等不同。现在,我使用Levenshtein来测量这些值与我定义的一组值

是否建议合并其他栏目?比如“学科”(计算机科学、历史等)和“机构”(斯坦福、哈佛等)?请注意,这些其他列与“学位类型”有相同的问题


我认为一定有更好的方法根据我没有看到的聚类算法对这些数据进行分组?非常感谢您提供的任何建议

你想用这个实现什么?如果你对上下文有更多的了解,那么回答这个问题就更容易了。你想通过集群获得这些标签,还是将它们用作集群的属性?你能给出一些你想做什么的例子或方案吗(例如,你到底有什么数据,你想得到什么)?