R 跨多个维度(类别)测量两个对象之间的相似性

R 跨多个维度(类别)测量两个对象之间的相似性,r,matrix,similarity,lda,R,Matrix,Similarity,Lda,这个问题可能更适合交叉验证这样的电路板,但我在这里提出这个问题是为了引出一些输入 我试图构建一个粗略的度量标准来衡量多个维度(或类别(例如,它们可以是经济部门GDP的百分比或学生在多个科目中的分数))上任何对象对之间的相似性 我心目中的一些潜在候选人是来自LDA(潜在Dirichlet分配)的潜在主题方法,该方法为K个集群列表中的每个单元分配(非零)概率,以及word2vec,该方法根据文本的向量化分数测量任意两个语料库之间的相似性。但考虑到我想要处理的对象通常有固定数量的类别(例如,学术科目、

这个问题可能更适合交叉验证这样的电路板,但我在这里提出这个问题是为了引出一些输入

我试图构建一个粗略的度量标准来衡量多个维度(或类别(例如,它们可以是经济部门GDP的百分比或学生在多个科目中的分数))上任何对象对之间的相似性

我心目中的一些潜在候选人是来自LDA(潜在Dirichlet分配)的潜在主题方法,该方法为K个集群列表中的每个单元分配(非零)概率,以及word2vec,该方法根据文本的向量化分数测量任意两个语料库之间的相似性。但考虑到我想要处理的对象通常有固定数量的类别(例如,学术科目、经济部门)和有界分布(比如0到100)。我想知道对于这项任务,什么是更合适的措施?0和1之间的度量值是理想的

另外,我想以两两的方式来做这件事,这样对于总共N个单元中的每个单元,计算每个单元与其余N-1个单元的相似性度量。例如,s11(仅为1)、s12、s13、s14,其分数可不同于s21、s22、s23、s24等。最后,我想把它重新排列成一个N乘以N的矩阵,以便进一步处理

我以以下出口统计数据(WTO数据库中的4个主要商品类别)为例,希望利用这个例子找到一种方法:(1)构建一个粗略的衡量标准,用于比较任何国家对之间的贸易(出口)概况相似性;(2)将产出安排到一个4×4矩阵中

profile=data.frame(“国家”=c(“阿富汗”、“阿尔巴尼亚”、“比利时”、“加拿大”),
“农产品”=c(65.8,11,10.9,15.3),
“制造商”=c(5.9,69.7,75.7,47.9),
“燃料和采矿产品”=c(1,19.2,12.6,29),
“其他”=c(27.3,0.7,0.9,7.8)

)
LDA不是您在这里寻找的机器人。如果您只需要对向量数据进行两两比较,那么最好从余弦相似性开始。只要您的数据不是太高维,余弦相似性将使您能够找到具有类似贸易习惯的成对国家。

查看
fuzzyjoin
软件包