Hadoop 如何在Pig拉丁语中实现Levenshtein算法

Hadoop 如何在Pig拉丁语中实现Levenshtein算法,hadoop,foreach,nested,apache-pig,levenshtein-distance,Hadoop,Foreach,Nested,Apache Pig,Levenshtein Distance,我有两个数据集。 A{(1,苹果),(2,橙色),(3,香蕉)和B={(1,甲骨文),(2,猿),(3,纳纳),(4,奥兰多),(5,应用程序)(6,横幅)} 我有一个udf,它给出两个字符串之间的Levenshtein分数。但是如何计算A中的每个字段和B中的所有字段,以获得B中最匹配的字符串 例如,A中“苹果”的Levenshtein分数比B中的ape分数更适合应用程序 Levenshtein在A中的“橙色”得分比奥兰多在B中的得分更适合甲骨文 A中“香蕉”的Levenshtein得分比B中的

我有两个数据集。 A{(1,苹果),(2,橙色),(3,香蕉)和B={(1,甲骨文),(2,猿),(3,纳纳),(4,奥兰多),(5,应用程序)(6,横幅)}

我有一个udf,它给出两个字符串之间的Levenshtein分数。但是如何计算A中的每个字段和B中的所有字段,以获得B中最匹配的字符串

例如,A中“苹果”的Levenshtein分数比B中的ape分数更适合应用程序 Levenshtein在A中的“橙色”得分比奥兰多在B中的得分更适合甲骨文
A中“香蕉”的Levenshtein得分比B中的banner得分更适合naana。

可能做A
交叉
。然后计算每对的Lvenstein距离,并找出每对的最大值


你自己为莱文施坦写过UDF吗?写它的选项是什么;直接用拉丁语还是可以用Python之类的语言编写?非常感谢。