Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/66.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 量化两句话之间的相似性_R_String_Topic Modeling_Sentence Similarity - Fatal编程技术网

R 量化两句话之间的相似性

R 量化两句话之间的相似性,r,string,topic-modeling,sentence-similarity,R,String,Topic Modeling,Sentence Similarity,对于一个项目,我想量化两个文本字符串之间的相似性。字符串是研究建议的标题,在研究人员中,我们希望计算两个字符串之间的相似性。dataframe目前有三列:(a)研究员id,(b)项目标题,(c)项目标题。我有数百行(研究员) 让我们想象一下,一名研究人员有两个项目名称: “如何通过观察DNA来解决心血管疾病。” “基因与老年人患心血管疾病的高风险。” 理想情况下,相似性的衡量标准不仅能准确地识别出单词(“心视”和“疾病”),还能将“DNA”与“基因”联系起来。此外,所有不重要的词语(“如何”、“

对于一个项目,我想量化两个文本字符串之间的相似性。字符串是研究建议的标题,在研究人员中,我们希望计算两个字符串之间的相似性。dataframe目前有三列:(a)研究员id,(b)项目标题,(c)项目标题。我有数百行(研究员)

让我们想象一下,一名研究人员有两个项目名称:

“如何通过观察DNA来解决心血管疾病。”

“基因与老年人患心血管疾病的高风险。”

理想情况下,相似性的衡量标准不仅能准确地识别出单词(“心视”和“疾病”),还能将“DNA”与“基因”联系起来。此外,所有不重要的词语(“如何”、“可以”、“是”、“在”等)都应该删除


我对这些问题没有经验。对于大量的研究人员,我如何能够量化这两个字符串变量之间的相似性?在理想的情况下,我将在R中对此进行编程。

作为第一步,您可以使用tidytext包创建数据帧,删除所谓的停止字,从而隔离每个标题中的实质性字。然后,您可以创建自己的同义词列表(相关单词,如DNA=基因)。然而,目前我不知道如何找到类似的标题。如果你需要检查相似性、谷歌余弦相似性或编辑距离。这不是一个特定的编程问题,因此不属于堆栈溢出,因为你实际上不知道该告诉计算机做什么。对于更一般的数据分析建议,可以尝试或搜索“自然语言处理”?作为第一步,您可以使用tidytext包创建数据框,删除所谓的停止词,从而隔离每个标题中的实质词。然后,您可以创建自己的同义词列表(相关单词,如DNA=基因)。然而,目前我不知道如何找到类似的标题。如果你需要检查相似性、谷歌余弦相似性或编辑距离。这不是一个特定的编程问题,因此不属于堆栈溢出,因为你实际上不知道该告诉计算机做什么。对于更一般的数据分析建议,可以尝试或搜索“自然语言处理”?