Java MALLET中主题分发文件中列的更改顺序

Java MALLET中主题分发文件中列的更改顺序,java,sorting,lda,topic-modeling,mallet,Java,Sorting,Lda,Topic Modeling,Mallet,MALLET在训练主题模型时,使用--output doc topics参数生成一个选项卡分隔的文件,其中包含每个文档的主题分布。看起来是这样的: doc# filename topic# weight 0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ... 但是,我需要对该文件进行不同的排序,以便进一步处理。现在,这些列是按主题权重降序排序的(0.211…

MALLET在训练主题模型时,使用
--output doc topics
参数生成一个选项卡分隔的文件,其中包含每个文档的主题分布。看起来是这样的:

doc#    filename    topic#    weight
0    file:/.../document_01.txt    3     0.2110215053763441    14    0.1330645161    ...
但是,我需要对该文件进行不同的排序,以便进一步处理。现在,这些列是按主题权重降序排序的(0.211…,0.133…等等)。但是,也可以按主题编号(0、1、2,…)及其相应的权重升序排序吗

起初,我认为可以使用Excel进行排序,但文件太大(>20GB)

这可能有一个MALLET参数吗?我已经浏览了
--help
部分,但没有找到任何相关内容

否则,您能推荐一个能够进行这种排序的工具或API吗


谢谢大家!

如果您获得的是最新版本(2.0.8),默认情况下将按主题id按排序顺序显示所有主题:

--doc-topics-max INTEGER
  When writing topic proportions per document with --output-doc-topics, do not print more than INTEGER number of topics.  A negative value indicates that all topics should be printed.
  Default is -1