两列之间的模糊匹配(Python)

两列之间的模糊匹配(Python),python,python-3.x,pandas,fuzzywuzzy,Python,Python 3.x,Pandas,Fuzzywuzzy,我有一个名为“df\u combo”的熊猫数据框架,其中包含列“worker\u id”,“url\u entry”,“company\u name”。我正在尝试生成一个输出列,该列将告诉我“url\u入口”列中的url是否包含“公司名称”列中的任何单词。即使是像FuzzyWozzy这样的近战也会奏效 例如,如果URL是“www.grandhotelseattle.com”,“公司名称”是“Hotel Prestige Seattle”,那么模糊比率可能在70-80之间 我尝试了以下脚本: 模糊

我有一个名为“df\u combo”的熊猫数据框架,其中包含列“worker\u id”“url\u entry”“company\u name”。我正在尝试生成一个输出列,该列将告诉我“url\u入口”列中的url是否包含“公司名称”列中的任何单词。即使是像FuzzyWozzy这样的近战也会奏效

例如,如果URL是“www.grandhotelseattle.com”,“公司名称”是“Hotel Prestige Seattle”,那么模糊比率可能在70-80之间

我尝试了以下脚本: 模糊比率(df_组合['url_entrance'],df_组合['company_name'])
但它只返回1个数字,即整个列的总模糊比率。我想为每一行设置模糊比率,并将这些比率存储在一个新列中。

感谢大家的输入。我已经解决了我的问题!“agg3l”提供的链接很有帮助。我看到的“TypeError”是因为“url\u入口”或“company\u name”在某些行中有一些浮动类型。我使用以下脚本将两个列转换为字符串,重新运行fuzz.ratio脚本并使其工作

df_组合['url_entrance']=df_组合['url_entrance'].astype(str) df_组合['company_name']=df_组合['company_name']]。astype(str)


这里可能有一个相关的问题,所以不确切,但相关。在这里,生成的表格将具有原始表格正方形的长度。(这是一个维度而不是一列…)@agg3l,我检查了那个链接。运行脚本,但出现一个错误:“TypeError:(“类型为'float'的对象没有len()”,u'occurrent at index 3206')。请共享df_combo.head(),以便我们更好地可视化您的df和问题这很有帮助。在我的例子中,我有一些NaN值,因此在运行模糊匹配之前,一个简单的
df['a'].fillna('',inplace=True)