R 量化两句话之间的相似性_R_String_Topic Modeling_Sentence Similarity

R 量化两句话之间的相似性

r string

R 量化两句话之间的相似性,r,string,topic-modeling,sentence-similarity,R,String,Topic Modeling,Sentence Similarity,对于一个项目，我想量化两个文本字符串之间的相似性。字符串是研究建议的标题，在研究人员中，我们希望计算两个字符串之间的相似性。dataframe目前有三列：（a）研究员id，（b）项目标题，（c）项目标题。我有数百行（研究员）让我们想象一下，一名研究人员有两个项目名称： “如何通过观察DNA来解决心血管疾病。” “基因与老年人患心血管疾病的高风险。” 理想情况下，相似性的衡量标准不仅能准确地识别出单词（“心视”和“疾病”），还能将“DNA”与“基因”联系起来。此外，所有不重要的词语（“如何”、“

对于一个项目，我想量化两个文本字符串之间的相似性。字符串是研究建议的标题，在研究人员中，我们希望计算两个字符串之间的相似性。dataframe目前有三列：（a）研究员id，（b）项目标题，（c）项目标题。我有数百行（研究员）

让我们想象一下，一名研究人员有两个项目名称：

“如何通过观察DNA来解决心血管疾病。”

“基因与老年人患心血管疾病的高风险。”

理想情况下，相似性的衡量标准不仅能准确地识别出单词（“心视”和“疾病”），还能将“DNA”与“基因”联系起来。此外，所有不重要的词语（“如何”、“可以”、“是”、“在”等）都应该删除

我对这些问题没有经验。对于大量的研究人员，我如何能够量化这两个字符串变量之间的相似性？在理想的情况下，我将在R中对此进行编程。

作为第一步，您可以使用tidytext包创建数据帧，删除所谓的停止字，从而隔离每个标题中的实质性字。然后，您可以创建自己的同义词列表（相关单词，如DNA=基因）。然而，目前我不知道如何找到类似的标题。如果你需要检查相似性、谷歌余弦相似性或编辑距离。这不是一个特定的编程问题，因此不属于堆栈溢出，因为你实际上不知道该告诉计算机做什么。对于更一般的数据分析建议，可以尝试或搜索“自然语言处理”？作为第一步，您可以使用tidytext包创建数据框，删除所谓的停止词，从而隔离每个标题中的实质词。然后，您可以创建自己的同义词列表（相关单词，如DNA=基因）。然而，目前我不知道如何找到类似的标题。如果你需要检查相似性、谷歌余弦相似性或编辑距离。这不是一个特定的编程问题，因此不属于堆栈溢出，因为你实际上不知道该告诉计算机做什么。对于更一般的数据分析建议，可以尝试或搜索“自然语言处理”？