Hadoop 如何在Pig拉丁语中实现Levenshtein算法_Hadoop_Foreach_Nested_Apache Pig_Levenshtein Distance

Hadoop 如何在Pig拉丁语中实现Levenshtein算法

hadoop apache-pig

Hadoop 如何在Pig拉丁语中实现Levenshtein算法,hadoop,foreach,nested,apache-pig,levenshtein-distance,Hadoop,Foreach,Nested,Apache Pig,Levenshtein Distance,我有两个数据集。 A{（1，苹果），（2，橙色），（3，香蕉）和B={（1，甲骨文），（2，猿），（3，纳纳），（4，奥兰多），（5，应用程序）（6，横幅）} 我有一个udf，它给出两个字符串之间的Levenshtein分数。但是如何计算A中的每个字段和B中的所有字段，以获得B中最匹配的字符串例如，A中“苹果”的Levenshtein分数比B中的ape分数更适合应用程序 Levenshtein在A中的“橙色”得分比奥兰多在B中的得分更适合甲骨文 A中“香蕉”的Levenshtein得分比B中的

我有两个数据集。 A{（1，苹果），（2，橙色），（3，香蕉）和B={（1，甲骨文），（2，猿），（3，纳纳），（4，奥兰多），（5，应用程序）（6，横幅）}

我有一个udf，它给出两个字符串之间的Levenshtein分数。但是如何计算A中的每个字段和B中的所有字段，以获得B中最匹配的字符串

例如，A中“苹果”的Levenshtein分数比B中的ape分数更适合应用程序 Levenshtein在A中的“橙色”得分比奥兰多在B中的得分更适合甲骨文

A中“香蕉”的Levenshtein得分比B中的banner得分更适合naana。

可能做A

交叉

。然后计算每对的Lvenstein距离，并找出每对的最大值

你自己为莱文施坦写过UDF吗？写它的选项是什么；直接用拉丁语还是可以用Python之类的语言编写？非常感谢。