Machine learning 如何度量用编程语言编写的代码片段之间的相似性

Machine learning 如何度量用编程语言编写的代码片段之间的相似性,machine-learning,nlp,similarity,Machine Learning,Nlp,Similarity,我正在努力解决以下问题。 给定一个特定的代码段,我需要返回该代码段的最上面的评论,这里我们要给出给类似代码段的所有评论 我试图把它变成一个机器学习问题。我认为我们可以使用KNN算法,但在这里我不确定我应该如何衡量两个代码片段之间的相似性?是否有任何预先存在的相似性度量?我试图在谷歌搜索,但没有找到任何有用的链接 请帮助编辑包含所考虑注释的两个字符串之间的距离,这可能是一个有用的相似性度量 此外,n-gram余弦距离也很有用,也就是说,您可以提取n-gram(例如,3个字符段),构建计算这些n-g

我正在努力解决以下问题。 给定一个特定的代码段,我需要返回该代码段的最上面的评论,这里我们要给出给类似代码段的所有评论

我试图把它变成一个机器学习问题。我认为我们可以使用KNN算法,但在这里我不确定我应该如何衡量两个代码片段之间的相似性?是否有任何预先存在的相似性度量?我试图在谷歌搜索,但没有找到任何有用的链接


请帮助

编辑包含所考虑注释的两个字符串之间的距离,这可能是一个有用的相似性度量

此外,n-gram余弦距离也很有用,也就是说,您可以提取n-gram(例如,3个字符段),构建计算这些n-gram的向量并计算余弦距离

另一个是n-gram向量之间的相似性(如上所述)。

你试过或库了吗?