Python 带句子的Difflib序列匹配器_Python_Difflib_Sequencematcher

Python 带句子的Difflib序列匹配器

python

Python 带句子的Difflib序列匹配器,python,difflib,sequencematcher,Python,Difflib,Sequencematcher,我有以下数据帧 Column1 Column2 tomato fruit tomatoes are not a fruit potato la best potatoe are some sort of fruit apple there are great benefits to appel pear peer 我想查找左边的单词/句子和右边的句子，如果最前面的两个单词（例如“potato la”和省去“best”）匹配，则会

我有以下数据帧

Column1         Column2
tomato fruit    tomatoes are not a fruit
potato la best  potatoe are some sort of fruit
apple           there are great benefits to appel
pear            peer

我想查找左边的单词/句子和右边的句子，如果最前面的两个单词（例如“potato la”和省去“best”）匹配，则会给出分数

我已经使用了两种不同的方法：

for i in range(0, len(Column1)):
     store_it = SM(None, Column1[i], Column2[i]).get_matching_blocks()
     print(store_it)

及

我在网上找到的

第二个很好，只是它试图匹配整个短语。如何将第一列中的单词与第二列中的句子进行匹配，以便最终给我一个“是”的答案，它们在句子中（或部分），或“否”它们不在句子中。

使用

set（）

：

issubset（其他）

set我在这一次使用FuzzyWuzzy的部分比率获得了最大的成功。它将给出第1列“西红柿水果”和第2列“西红柿不是水果”之间的部分%匹配率，以及下一列的其余部分。见结果：

from fuzzywuzzy import fuzz
import difflib

df['fuzz_partial_ratio'] = df.apply(lambda x: fuzz.partial_ratio(x['Column1'], x['Column2']), axis=1)

df['sequence_ratio'] = df.apply(lambda x: difflib.SequenceMatcher(None, x['Column1'], x['Column2']).ratio(), axis=1)

你可以认为任何FuffyWuZy分数＞60是一个很好的部分匹配，也就是说，在Culn2中，CulnN1中的单词最可能出现在句子中。

第1行-得分67，第2行-得分71，第3行-得分80，第4行-得分75

c_set1 = set(Column1[i])
c_set2 = set(Column2[i])
if  c_set1.issubset(c_set2):
    # every in  c_set1 is in  c_set2

from fuzzywuzzy import fuzz
import difflib

df['fuzz_partial_ratio'] = df.apply(lambda x: fuzz.partial_ratio(x['Column1'], x['Column2']), axis=1)

df['sequence_ratio'] = df.apply(lambda x: difflib.SequenceMatcher(None, x['Column1'], x['Column2']).ratio(), axis=1)