R 词汇移动相似性
我想使用轻松的单词移动器距离计算文本相似度。我有两个不同的数据集(语料库)。见下文R 词汇移动相似性,r,nlp,text2vec,R,Nlp,Text2vec,我想使用轻松的单词移动器距离计算文本相似度。我有两个不同的数据集(语料库)。见下文 A <- data.frame(name = c( "X-ray right leg arteries", "consultation of gynecologist", "x-ray leg arteries", "x-ray leg with 20km distance", "x-ray left hand" ), stringsAsFactors = F) B <- dat
A <- data.frame(name = c(
"X-ray right leg arteries",
"consultation of gynecologist",
"x-ray leg arteries",
"x-ray leg with 20km distance",
"x-ray left hand"
), stringsAsFactors = F)
B <- data.frame(name = c(
"X-ray left leg arteries",
"consultation (inspection) of gynecalogist",
"MRI right leg arteries",
"X-ray right leg arteries with special care"
), stringsAsFactors = F)
tcm=create\u tcm(it、矢量器、skip\u grams\u window=3)中的skip\u grams\u window=3
是否表示在创建共现矩阵时向右检查3个单词?例如,文本“X射线右腿动脉”将成为向量目标:“X射线”
right leg arteries
1 1 1
word\u vectors\u size
有什么用?我读过手套的算法,但不理解这个函数的用法
手套模型=手套$new(单词向量大小=10,词汇=v,x最大=3)建议指定skip\u grams\u window\u上下文(有效值:“symmetric”
,“right”
,或“left”
)以及skip\u grams\u window
参数
word\u vectors\u size
参数用于定义基础词向量的维度。这意味着每个单词都被转换成N维向量空间中的向量。有几篇文章很好地解释了词向量(和)
在您的示例中,glove\u model=glove$new(word\u vectors\u size=10,词汇=v,x\u max=3)
,它意味着10维单词向量
为单词向量选择合适的维数很重要。根据2014年10月的答复
典型间隔在100-300之间。我想说你至少需要50天才能达到最低的准确度。如果拾取的标注数量较少,则将开始丢失高维空间的属性。如果培训时间对您的应用程序来说不是什么大问题,我会坚持使用200D维度,因为它提供了很好的特性。使用300D可获得极高的精度。300D之后,单词的特征不会有显著的改善,训练也会非常缓慢
谢谢你能用简单的术语解释一下吗?基本的词向量指的是什么维度?任何简单的例子都将不胜感激!我已经添加了解释词向量的文章链接。另一个问题的答案也可能会有所帮助,
right leg arteries
1 1 1