Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/68.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 词汇移动相似性_R_Nlp_Text2vec - Fatal编程技术网

R 词汇移动相似性

R 词汇移动相似性,r,nlp,text2vec,R,Nlp,Text2vec,我想使用轻松的单词移动器距离计算文本相似度。我有两个不同的数据集(语料库)。见下文 A <- data.frame(name = c( "X-ray right leg arteries", "consultation of gynecologist", "x-ray leg arteries", "x-ray leg with 20km distance", "x-ray left hand" ), stringsAsFactors = F) B <- dat

我想使用轻松的单词移动器距离计算文本相似度。我有两个不同的数据集(语料库)。见下文

A <- data.frame(name = c(
  "X-ray right leg arteries",
  "consultation of gynecologist",
  "x-ray leg arteries",
  "x-ray leg with 20km distance",
  "x-ray left hand"
), stringsAsFactors = F)

B <- data.frame(name = c(
  "X-ray left leg arteries",
  "consultation (inspection) of gynecalogist",
  "MRI right leg arteries",
  "X-ray right leg arteries with special care"
), stringsAsFactors = F)
tcm=create\u tcm(it、矢量器、skip\u grams\u window=3)中的
skip\u grams\u window=3
是否表示在创建共现矩阵时向右检查3个单词?例如,文本“X射线右腿动脉”将成为向量目标:“X射线”

right   leg arteries
1   1   1
word\u vectors\u size
有什么用?我读过手套的算法,但不理解这个函数的用法


手套模型=手套$new(单词向量大小=10,词汇=v,x最大=3)建议指定
skip\u grams\u window\u上下文(有效值:
“symmetric”
“right”
,或
“left”
)以及
skip\u grams\u window
参数

word\u vectors\u size
参数用于定义基础词向量的维度。这意味着每个单词都被转换成N维向量空间中的向量。有几篇文章很好地解释了词向量(和)

在您的示例中,
glove\u model=glove$new(word\u vectors\u size=10,词汇=v,x\u max=3)
,它意味着10维单词向量

为单词向量选择合适的维数很重要。根据2014年10月的答复

典型间隔在100-300之间。我想说你至少需要50天才能达到最低的准确度。如果拾取的标注数量较少,则将开始丢失高维空间的属性。如果培训时间对您的应用程序来说不是什么大问题,我会坚持使用200D维度,因为它提供了很好的特性。使用300D可获得极高的精度。300D之后,单词的特征不会有显著的改善,训练也会非常缓慢


谢谢你能用简单的术语解释一下吗?基本的词向量指的是什么维度?任何简单的例子都将不胜感激!我已经添加了解释词向量的文章链接。另一个问题的答案也可能会有所帮助,
right   leg arteries
1   1   1