Python 在推文中找到主题的好算法是按关注者数量排序的?

Python 在推文中找到主题的好算法是按关注者数量排序的?,python,algorithm,r,cluster-analysis,data-mining,Python,Algorithm,R,Cluster Analysis,Data Mining,我对数据挖掘和实验还不太熟悉 假设我有N个twitter用户,我想找到什么 是他们写作的总体主题(基于推特)。 然后我想给每个主题赋予更高的权重,如果这个用户有更多的追随者 然后我想合并所有的主题,如果有足够的相似,但仍然 通过twitter计数保留权重 因此,基本上是一个“重要”主题列表,按权威排序(用户的推特计数) 例如,像news.google.com,但排名将基于负责主题的twitter追随者 我更喜欢python语言,因为那是我最熟悉的语言 有什么想法吗 谢谢 编辑: 下面是一个很好的

我对数据挖掘和实验还不太熟悉

假设我有N个twitter用户,我想找到什么 是他们写作的总体主题(基于推特)。
然后我想给每个主题赋予更高的权重,如果这个用户有更多的追随者

然后我想合并所有的主题,如果有足够的相似,但仍然 通过twitter计数保留权重

因此,基本上是一个“重要”主题列表,按权威排序(用户的推特计数)

例如,像news.google.com,但排名将基于负责主题的twitter追随者

我更喜欢python语言,因为那是我最熟悉的语言

有什么想法吗

谢谢

编辑: 下面是一个很好的例子,说明我正在尝试做什么(但使用的是不同的数据)

基本上分析各种数据及其相互关系:工作类别和每个人的年龄或单词类别和朋友计数,如本例所示


我从哪里开始解决这个问题并生成这样的图?

一般来说:R有一些专门针对文本挖掘和数据挖掘的软件包,提供了广泛的技术。我不知道Python中的那种包,但这并不意味着它们不存在。我只是不想自己实现它,它比乍一看要复杂一点

有些事情你必须考虑:

  • 定义“主题”:是他们使用的标签吗?你把标签分组吗?你有一个小的列表,有一个有限的集合,还是集合是无限的
  • 定义“一般主题”:这是最常用的主题吗?你如何处理领带?如果一个用户写了大约10个主题,那么怎么办
  • 定义“权重”:是否等于用户数量?平方根?什么类别

如果您对此有一个大致的想法,那么可以开始使用来以可行的格式提取所有信息。该包基于矩阵和元数据对象。如果你已经定义了一个主题,你就可以得到不同主题的加权频率。您还可以使用不同的权重函数来获得所需的权重。手册是。但如果你不确定自己在做什么,也请访问以获得额外指导。这实际上更多的是关于数据挖掘的问题,而不是关于编程的问题。

我没有具体的代码,但我相信您想要采用的方法是TF-IDF。这里有解释:它经常被用来对文本进行分类。

我添加了python标记——你为什么要用“R”标记它?只是因为我认为可能的解决方案可以用R表示。那么,你不是在寻找语言不可知论者吗,如果您没有特定的语言,更不用说当每个条目最多只有160个字符时,文本挖掘会有多困难。