Math 大规模集成电路的问题

Math 大规模集成电路的问题,math,latent-semantic-indexing,Math,Latent Semantic Indexing,我使用潜在语义分析来分析文本相似性。我有两个问题 如何选择K值进行降维 我在LSI工作的每一个地方都读了很多类似的词,比如汽车和汽车。怎么可能呢???我在这里错过了什么神奇的一步 尝试[1..n]中的两个不同的值,看看什么适用于您试图完成的任何任务 制作一个单词-单词相关矩阵[即celli,j保存i,j共同出现的文档的名称],并在其上使用类似PCA的东西 k的典型选择是300。理想情况下,可以基于使用缩减向量的评估度量设置k。例如,如果要对文档进行聚类,可以选择使聚类解决方案得分最大化的k。如果

我使用潜在语义分析来分析文本相似性。我有两个问题

如何选择K值进行降维

我在LSI工作的每一个地方都读了很多类似的词,比如汽车和汽车。怎么可能呢???我在这里错过了什么神奇的一步

尝试[1..n]中的两个不同的值,看看什么适用于您试图完成的任何任务

制作一个单词-单词相关矩阵[即celli,j保存i,j共同出现的文档的名称],并在其上使用类似PCA的东西

k的典型选择是300。理想情况下,可以基于使用缩减向量的评估度量设置k。例如,如果要对文档进行聚类,可以选择使聚类解决方案得分最大化的k。如果您没有衡量基准,那么我会根据您的数据集有多大来设置k。如果您只有100个文档,那么您就不会期望需要几百个潜在因素来表示它们。同样,如果您有一百万个文档,那么300个文档可能太小了。然而,根据我的经验,如果k不是太小,即k=300与k=1000相当,则结果向量对k的大变化相当稳健

您可能会混淆LSI和LSA。它们是非常相关的技术,区别在于LSI操作文档,LSA操作文字。两种方法都使用相同的输入项x文档矩阵。如果您愿意尝试,有几种好的开源LSA实现。LSA维基百科页面有一个全面的列表