R 词汇移动相似性_R_Nlp_Text2vec

R 词汇移动相似性

r nlp

R 词汇移动相似性,r,nlp,text2vec,R,Nlp,Text2vec,我想使用轻松的单词移动器距离计算文本相似度。我有两个不同的数据集（语料库）。见下文 A <- data.frame(name = c( "X-ray right leg arteries", "consultation of gynecologist", "x-ray leg arteries", "x-ray leg with 20km distance", "x-ray left hand" ), stringsAsFactors = F) B <- dat

我想使用轻松的单词移动器距离计算文本相似度。我有两个不同的数据集（语料库）。见下文

A <- data.frame(name = c(
  "X-ray right leg arteries",
  "consultation of gynecologist",
  "x-ray leg arteries",
  "x-ray leg with 20km distance",
  "x-ray left hand"
), stringsAsFactors = F)

B <- data.frame(name = c(
  "X-ray left leg arteries",
  "consultation (inspection) of gynecalogist",
  "MRI right leg arteries",
  "X-ray right leg arteries with special care"
), stringsAsFactors = F)

tcm=create\u tcm（it、矢量器、skip\u grams\u window=3）中的skip\u grams\u window=3
是否表示在创建共现矩阵时向右检查3个单词？例如，文本“X射线右腿动脉”将成为向量目标：“X射线”
right   leg arteries
1   1   1

word\u vectors\u size
有什么用？我读过手套的算法，但不理解这个函数的用法
手套模型=手套$new（单词向量大小=10，词汇=v，x最大=3）建议指定skip\u grams\u window\u上下文（有效值：“symmetric”
，“right”
，或“left”
）以及skip\u grams\u window
参数
word\u vectors\u size
参数用于定义基础词向量的维度。这意味着每个单词都被转换成N维向量空间中的向量。有几篇文章很好地解释了词向量（和）
在您的示例中，glove\u model=glove$new（word\u vectors\u size=10，词汇=v，x\u max=3）
，它意味着10维单词向量
为单词向量选择合适的维数很重要。根据2014年10月的答复
典型间隔在100-300之间。我想说你至少需要50天才能达到最低的准确度。如果拾取的标注数量较少，则将开始丢失高维空间的属性。如果培训时间对您的应用程序来说不是什么大问题，我会坚持使用200D维度，因为它提供了很好的特性。使用300D可获得极高的精度。300D之后，单词的特征不会有显著的改善，训练也会非常缓慢
谢谢你能用简单的术语解释一下吗？基本的词向量指的是什么维度？任何简单的例子都将不胜感激！我已经添加了解释词向量的文章链接。另一个问题的答案也可能会有所帮助，
right   leg arteries
1   1   1