如何在python数据框中比较两列中的tokenise单词

如何在python数据框中比较两列中的tokenise单词,python,string,nltk,token,summary,Python,String,Nltk,Token,Summary,我有一个CSV文件,其中记录了IT事件。我有一个“摘要”列和一个“类别”列 我为此列中的每一行生成了标记化单词。我想将摘要列中的标记与类别列中的标记进行比较关于如何比较向量,您并不十分明确,但常用的方法是使用欧几里德距离(L2范数)。 我建议将您的令牌列提取到numpy数组,然后使用 将numpy导入为np #a和b将代表您的令牌列 #您没有指定每个标记/向量的大小,因此为了本例,我将其设置为5 a=np.rand.rand(4,5) b=np.rand.rand(4,5) a、 b 输出: (

我有一个CSV文件,其中记录了IT事件。我有一个“摘要”列和一个“类别”列
我为此列中的每一行生成了标记化单词。我想将摘要列中的标记与类别列中的标记进行比较

关于如何比较向量,您并不十分明确,但常用的方法是使用欧几里德距离(L2范数)。
我建议将您的令牌列提取到numpy数组,然后使用

将numpy导入为np
#a和b将代表您的令牌列
#您没有指定每个标记/向量的大小,因此为了本例,我将其设置为5
a=np.rand.rand(4,5)
b=np.rand.rand(4,5)
a、 b
输出:
(数组([[0.39435087,0.06389897,0.66712442,0.5442628,0.29284329],
[0.10868951, 0.61121235, 0.24025041, 0.57043359, 0.1375542 ],
[0.56818288, 0.74752492, 0.16356138, 0.79570418, 0.01905405],
[0.44776656, 0.31403308, 0.29965215, 0.21162856, 0.49277446]]),
阵列([[0.6300318,0.47202827,0.19513324,0.38156414,0.85896642],
[0.69856134, 0.33403423, 0.17599279, 0.62404711, 0.10093772],
[0.18569367, 0.9487905 , 0.76287508, 0.30532111, 0.66589667],
[0.88249761, 0.32604273, 0.95195868, 0.89162121, 0.03382068]]))
#这将是令牌/向量之间的每行距离
#您可以将其作为新列添加到数据框中
np.linalg.norm(a-b,轴=-1)
输出:
阵列([0.88986344,0.65811907,1.09766282,1.13475447])

对于如何比较向量,您并不十分明确,但常用的方法是使用欧几里德距离(L2范数)。
我建议将您的令牌列提取到numpy数组,然后使用

将numpy导入为np
#a和b将代表您的令牌列
#您没有指定每个标记/向量的大小,因此为了本例,我将其设置为5
a=np.rand.rand(4,5)
b=np.rand.rand(4,5)
a、 b
输出:
(数组([[0.39435087,0.06389897,0.66712442,0.5442628,0.29284329],
[0.10868951, 0.61121235, 0.24025041, 0.57043359, 0.1375542 ],
[0.56818288, 0.74752492, 0.16356138, 0.79570418, 0.01905405],
[0.44776656, 0.31403308, 0.29965215, 0.21162856, 0.49277446]]),
阵列([[0.6300318,0.47202827,0.19513324,0.38156414,0.85896642],
[0.69856134, 0.33403423, 0.17599279, 0.62404711, 0.10093772],
[0.18569367, 0.9487905 , 0.76287508, 0.30532111, 0.66589667],
[0.88249761, 0.32604273, 0.95195868, 0.89162121, 0.03382068]]))
#这将是令牌/向量之间的每行距离
#您可以将其作为新列添加到数据框中
np.linalg.norm(a-b,轴=-1)
输出:
阵列([0.88986344,0.65811907,1.09766282,1.13475447])

您能添加一些功能吗?然后,添加一个CSV外观示例?您如何标记摘要?哪一个是比较标准?你能补充一些建议吗?然后,添加一个CSV外观示例?您如何标记摘要?比较标准是什么?