Math 大规模集成电路的问题_Math_Latent Semantic Indexing

Math 大规模集成电路的问题

math

Math 大规模集成电路的问题,math,latent-semantic-indexing,Math,Latent Semantic Indexing,我使用潜在语义分析来分析文本相似性。我有两个问题如何选择K值进行降维我在LSI工作的每一个地方都读了很多类似的词，比如汽车和汽车。怎么可能呢？？？我在这里错过了什么神奇的一步尝试[1..n]中的两个不同的值，看看什么适用于您试图完成的任何任务制作一个单词-单词相关矩阵[即celli，j保存i，j共同出现的文档的名称]，并在其上使用类似PCA的东西 k的典型选择是300。理想情况下，可以基于使用缩减向量的评估度量设置k。例如，如果要对文档进行聚类，可以选择使聚类解决方案得分最大化的k。如果

我使用潜在语义分析来分析文本相似性。我有两个问题

如何选择K值进行降维

我在LSI工作的每一个地方都读了很多类似的词，比如汽车和汽车。怎么可能呢？？？我在这里错过了什么神奇的一步

尝试[1..n]中的两个不同的值，看看什么适用于您试图完成的任何任务

制作一个单词-单词相关矩阵[即celli，j保存i，j共同出现的文档的名称]，并在其上使用类似PCA的东西

k的典型选择是300。理想情况下，可以基于使用缩减向量的评估度量设置k。例如，如果要对文档进行聚类，可以选择使聚类解决方案得分最大化的k。如果您没有衡量基准，那么我会根据您的数据集有多大来设置k。如果您只有100个文档，那么您就不会期望需要几百个潜在因素来表示它们。同样，如果您有一百万个文档，那么300个文档可能太小了。然而，根据我的经验，如果k不是太小，即k=300与k=1000相当，则结果向量对k的大变化相当稳健

您可能会混淆LSI和LSA。它们是非常相关的技术，区别在于LSI操作文档，LSA操作文字。两种方法都使用相同的输入项x文档矩阵。如果您愿意尝试，有几种好的开源LSA实现。LSA维基百科页面有一个全面的列表