Time 在9GB语料库上通过MALLET进行主题建模需要多少时间

Time 在9GB语料库上通过MALLET进行主题建模需要多少时间,time,lda,topic-modeling,mallet,Time,Lda,Topic Modeling,Mallet,我想在9GB语料库上进行LDA主题建模。该计划是使用MALLET对LDA模型进行1000次迭代和100个主题的培训,在200次迭代的磨合期后,每10次迭代优化一次超参数。 我正在使用64位Win8,这台计算机有16GB内存,英特尔®内核™ i7-4720HQ处理器。 有人能告诉我这需要多长时间吗?我们谈论的是小时还是天? 这是我在这里问的第一个问题,如果我跳过了一些重要信息,请告诉我 确切的时间将根据语料库的复杂性而有所不同。随着模型开始更好地拟合,采样将开始加快,因为不确定性将降低。我猜大概一

我想在9GB语料库上进行LDA主题建模。该计划是使用MALLET对LDA模型进行1000次迭代和100个主题的培训,在200次迭代的磨合期后,每10次迭代优化一次超参数。 我正在使用64位Win8,这台计算机有16GB内存,英特尔®内核™ i7-4720HQ处理器。 有人能告诉我这需要多长时间吗?我们谈论的是小时还是天?
这是我在这里问的第一个问题,如果我跳过了一些重要信息,请告诉我

确切的时间将根据语料库的复杂性而有所不同。随着模型开始更好地拟合,采样将开始加快,因为不确定性将降低。我猜大概一天的订单就能买到一个好的模型

导入数据可能是最具挑战性的部分。“bulkload”命令旨在减少由每行一个文档的大文件组成的导入的内存占用。此命令还将根据词频对词汇进行修剪


对于具有超参数优化的这种大小的语料库,考虑使用更多的主题。使用500个主题可能需要不超过100个主题,这与模型更适合时采样速度更快的原因相同。

因此,为了防止有人感兴趣,最后我运行了主题建模(如问题中所述),几乎花了两天时间完成(1天20小时)

谢谢你回答我的问题,并给我一个建议。祝你一切顺利@是的,我知道这一点。问题是我仍然没有足够的声誉去这么做。一旦我得到它,我会确保投票结果