Java 使用apachemahout-MinLLR参数对文档进行矢量化

Java 使用apachemahout-MinLLR参数对文档进行矢量化,java,apache,mahout,Java,Apache,Mahout,我正在与ApacheMahout合作,对一组相当大的文档(约500k)进行矢量化和集群。在项目网站和Mahout In Action book上的示例中,我看到seq2sparse的minLLR参数使用了好几次,但我不确定它期望的值是什么。有没有什么“起点”或方法来估算这个参数的合适值?LLR值没有标准化,所以我认为没有一个好的答案。答案将取决于你想要修剪多少。LLR值将随着语料库的大小(嗯,n克数)线性增加。默认值1.0是合理的,我建议您通过实验找到正确的值,然后根据输入的大小将其线性缩放到其

我正在与ApacheMahout合作,对一组相当大的文档(约500k)进行矢量化和集群。在项目网站和Mahout In Action book上的示例中,我看到
seq2sparse
minLLR
参数使用了好几次,但我不确定它期望的值是什么。有没有什么“起点”或方法来估算这个参数的合适值?

LLR值没有标准化,所以我认为没有一个好的答案。答案将取决于你想要修剪多少。LLR值将随着语料库的大小(嗯,n克数)线性增加。默认值1.0是合理的,我建议您通过实验找到正确的值,然后根据输入的大小将其线性缩放到其他输入