Algorithm 基于给定变量计算数据相似性分数的算法是什么?

Algorithm 基于给定变量计算数据相似性分数的算法是什么?,algorithm,similarity,cosine-similarity,Algorithm,Similarity,Cosine Similarity,标题可能不是最容易理解的,但让我在这里详细说明我的问题。情况是,一些股票可能由于各种原因更改了其股票代码,而自动数据采集器没有意识到这些更改。它不断用新的股票代码添加新的条目。我想创建一个算法,它将使用: 市值(数字) 收盘价(数字) 行业(字符串) 扇区(字符串) 公司名称(字符串) 作为确定某特定股票是否可能与数据集中具有不同股票代码(由于名称更改)的其他股票相同的加权因子,输出可能是基于这5个加权因子的相似性得分超过某个阈值的成对股票。这个问题很难解释,但我尽了最大的努力 我正在寻找一些启

标题可能不是最容易理解的,但让我在这里详细说明我的问题。情况是,一些股票可能由于各种原因更改了其股票代码,而自动数据采集器没有意识到这些更改。它不断用新的股票代码添加新的条目。我想创建一个算法,它将使用:

  • 市值(数字)
  • 收盘价(数字)
  • 行业(字符串)
  • 扇区(字符串)
  • 公司名称(字符串)
  • 作为确定某特定股票是否可能与数据集中具有不同股票代码(由于名称更改)的其他股票相同的加权因子,输出可能是基于这5个加权因子的相似性得分超过某个阈值的成对股票。这个问题很难解释,但我尽了最大的努力

    我正在寻找一些启动的想法。任何东西都可以,一步一步的算法,算法的数学公式,伪代码,解释,任何东西

    顺便说一下,我将用Python编写代码


    谢谢你,如果问题不清楚,我会提前道歉。

    如果前四个标准正好在一天结束和第二天开始之间匹配,但最后一个标准不匹配,那么,您很有可能看到名称更改。@500 InternalServerError我看到了,但问题是传递给我的数据集与开盘价不符。还有,你明白我想问的了吧?啊,这是个问题。是的,我相信我明白你的要求。感谢上帝。我以为没人会理解我的问题。