R 跨多个维度（类别）测量两个对象之间的相似性_R_Matrix_Similarity_Lda

R 跨多个维度（类别）测量两个对象之间的相似性

r matrix

R 跨多个维度（类别）测量两个对象之间的相似性,r,matrix,similarity,lda,R,Matrix,Similarity,Lda,这个问题可能更适合交叉验证这样的电路板，但我在这里提出这个问题是为了引出一些输入我试图构建一个粗略的度量标准来衡量多个维度（或类别（例如，它们可以是经济部门GDP的百分比或学生在多个科目中的分数））上任何对象对之间的相似性我心目中的一些潜在候选人是来自LDA（潜在Dirichlet分配）的潜在主题方法，该方法为K个集群列表中的每个单元分配（非零）概率，以及word2vec，该方法根据文本的向量化分数测量任意两个语料库之间的相似性。但考虑到我想要处理的对象通常有固定数量的类别（例如，学术科目、

这个问题可能更适合交叉验证这样的电路板，但我在这里提出这个问题是为了引出一些输入

我试图构建一个粗略的度量标准来衡量多个维度（或类别（例如，它们可以是经济部门GDP的百分比或学生在多个科目中的分数））上任何对象对之间的相似性

我心目中的一些潜在候选人是来自LDA（潜在Dirichlet分配）的潜在主题方法，该方法为K个集群列表中的每个单元分配（非零）概率，以及word2vec，该方法根据文本的向量化分数测量任意两个语料库之间的相似性。但考虑到我想要处理的对象通常有固定数量的类别（例如，学术科目、经济部门）和有界分布（比如0到100）。我想知道对于这项任务，什么是更合适的措施？0和1之间的度量值是理想的

另外，我想以两两的方式来做这件事，这样对于总共N个单元中的每个单元，计算每个单元与其余N-1个单元的相似性度量。例如，s11（仅为1）、s12、s13、s14，其分数可不同于s21、s22、s23、s24等。最后，我想把它重新排列成一个N乘以N的矩阵，以便进一步处理

我以以下出口统计数据（WTO数据库中的4个主要商品类别）为例，希望利用这个例子找到一种方法：（1）构建一个粗略的衡量标准，用于比较任何国家对之间的贸易（出口）概况相似性；（2）将产出安排到一个4×4矩阵中

profile=data.frame（“国家”=c（“阿富汗”、“阿尔巴尼亚”、“比利时”、“加拿大”），
“农产品”=c（65.8,11,10.9,15.3），
“制造商”=c（5.9,69.7,75.7,47.9），
“燃料和采矿产品”=c（1,19.2,12.6,29），
“其他”=c（27.3,0.7,0.9,7.8）
)

LDA不是您在这里寻找的机器人。如果您只需要对向量数据进行两两比较，那么最好从余弦相似性开始。只要您的数据不是太高维，余弦相似性将使您能够找到具有类似贸易习惯的成对国家。

查看

fuzzyjoin

软件包