Algorithm 基于给定变量计算数据相似性分数的算法是什么？_Algorithm_Similarity_Cosine Similarity

Algorithm 基于给定变量计算数据相似性分数的算法是什么？

algorithm

Algorithm 基于给定变量计算数据相似性分数的算法是什么？,algorithm,similarity,cosine-similarity,Algorithm,Similarity,Cosine Similarity,标题可能不是最容易理解的，但让我在这里详细说明我的问题。情况是，一些股票可能由于各种原因更改了其股票代码，而自动数据采集器没有意识到这些更改。它不断用新的股票代码添加新的条目。我想创建一个算法，它将使用：市值（数字）收盘价（数字）行业（字符串）扇区（字符串）公司名称（字符串）作为确定某特定股票是否可能与数据集中具有不同股票代码（由于名称更改）的其他股票相同的加权因子，输出可能是基于这5个加权因子的相似性得分超过某个阈值的成对股票。这个问题很难解释，但我尽了最大的努力我正在寻找一些启

标题可能不是最容易理解的，但让我在这里详细说明我的问题。情况是，一些股票可能由于各种原因更改了其股票代码，而自动数据采集器没有意识到这些更改。它不断用新的股票代码添加新的条目。我想创建一个算法，它将使用：

市值（数字）

收盘价（数字）

行业（字符串）

扇区（字符串）

公司名称（字符串）

作为确定某特定股票是否可能与数据集中具有不同股票代码（由于名称更改）的其他股票相同的加权因子，输出可能是基于这5个加权因子的相似性得分超过某个阈值的成对股票。这个问题很难解释，但我尽了最大的努力

我正在寻找一些启动的想法。任何东西都可以，一步一步的算法，算法的数学公式，伪代码，解释，任何东西

顺便说一下，我将用Python编写代码

谢谢你，如果问题不清楚，我会提前道歉。

如果前四个标准正好在一天结束和第二天开始之间匹配，但最后一个标准不匹配，那么，您很有可能看到名称更改。@500 InternalServerError我看到了，但问题是传递给我的数据集与开盘价不符。还有，你明白我想问的了吧？啊，这是个问题。是的，我相信我明白你的要求。感谢上帝。我以为没人会理解我的问题。