Pandas 根据数据帧中的值分配索引

Pandas 根据数据帧中的值分配索引,pandas,dataframe,dictionary,indexing,assign,Pandas,Dataframe,Dictionary,Indexing,Assign,我有一个带有注释和注释的数据框架,我在上面执行主题建模。由于这个模型,我不得不把所有的评论都转换成一大串句子。我在上面执行集群。现在,我想为每个评论者分配一个集群 我有两个数据帧: 第一个是原始数据帧,第二个是聚类后的输出。 我有一本字典,上面有作者的索引和他评论的评论数(超过3个单词)。现在我想给每个评论者分配一个集群,但我不确定如何分配,因为索引显然不再匹配。因此,我的问题是:如何根据字典中的值分配索引。如果您能提供一个更完整的示例,其中包含精确的字符串,从何处开始,在何处结束,以及希望获

我有一个带有注释和注释的数据框架,我在上面执行主题建模。由于这个模型,我不得不把所有的评论都转换成一大串句子。我在上面执行集群。现在,我想为每个评论者分配一个集群

我有两个数据帧:

第一个是原始数据帧,第二个是聚类后的输出。
我有一本字典,上面有作者的索引和他评论的评论数(超过3个单词)。现在我想给每个评论者分配一个集群,但我不确定如何分配,因为索引显然不再匹配。因此,我的问题是:如何根据字典中的值分配索引。

如果您能提供一个更完整的示例,其中包含精确的字符串,从何处开始,在何处结束,以及希望获得的输出,这将有所帮助。除了括号外,
句子
文本
似乎是相同的。如果是这种情况,那么您可以将其用作键。一般来说,函数应该要么保持顺序,要么允许您传递一些附加信息,以便您可以重新加入。检查群集功能的文档。如果不这样做,则在将文本数组转换为字符串后,它至少应将您输入的句子返回给您,该句子可用作键:

df1.merge(df2[[‘sentence’, ‘cluster_id’]],
          left_on=[‘text’], right_on=[‘sentence’], how=‘left’)
更复杂的情况是,如果作者有不止一句话。在这些情况下,不同的句子可能属于不同的类别。它仍然是可合并的,但您需要考虑如何处理此类案例