用于文本分割的pythonlibs

用于文本分割的pythonlibs,python,scipy,scikit-learn,cluster-computing,semantics,Python,Scipy,Scikit Learn,Cluster Computing,Semantics,有谁能推荐好的文本分割方法和/或libs吗 我有一套大图或三联图。然后我想说的是,这些bigram指的是一个集群,那些指的是那个集群,依此类推 在集群化之后,我将手动命名这些集群 我需要创建smth,就像一本字典一样,将文本评论分类(“投诉”、“垃圾邮件”等等) ____编辑____ 我已停止使用gensim lib和LDA建模进行搜索。它工作得非常好,或者说自然语言工具包是Python中处理文本的常用工具。这将处理项目的细分方面 具体来说,您可能对标记化模块感兴趣 ,或Natural Lang

有谁能推荐好的文本分割方法和/或libs吗

我有一套大图或三联图。然后我想说的是,这些bigram指的是一个集群,那些指的是那个集群,依此类推

在集群化之后,我将手动命名这些集群

我需要创建smth,就像一本字典一样,将文本评论分类(“投诉”、“垃圾邮件”等等)

____编辑____

我已停止使用gensim lib和LDA建模进行搜索。它工作得非常好,或者说自然语言工具包是Python中处理文本的常用工具。这将处理项目的细分方面

具体来说,您可能对
标记化
模块感兴趣

,或Natural Language Toolkit是Python中处理文本的常用工具。这将处理项目的细分方面


具体来说,您可能对
标记化
模块感兴趣

要求我们推荐或查找书籍、工具、软件库、教程或其他非现场资源的问题对于堆栈溢出来说是离题的,因为它们往往会吸引自以为是的答案和垃圾邮件。我看到了很多关于nltk的问题。这可能意味着它很受欢迎,也可能意味着它很难使用是的,这个问题很一般,但我的问题是找到一个好的算法。我可以;目前还不能更精确地说明,要求我们推荐或查找书籍、工具、软件库、教程或其他非现场资源的问题,因为它们往往会吸引固执己见的答案和垃圾信息,因此与堆栈溢出无关。我看到了很多关于nltk的问题。这可能意味着它很受欢迎,也可能意味着它很难使用是的,这个问题很一般,但我的问题是找到一个好的算法。我可以;现在我正在与gensim lib取得联系。我将检查结果现在我正在与gensim lib联系。我会检查结果