Apache pig 如何从清管器上的文本中提取所有匹配项

Apache pig 如何从清管器上的文本中提取所有匹配项,apache-pig,Apache Pig,我有这样的元组:{title:chararray,textWithLinks:chararray} 示例:(标题1,一些文本[[link]]一些文本[[link]]一些文本… 我需要从文本中提取所有链接并获取元组: (标题,(link1,link2,link3…) 我该怎么做?RegexExtract或RegexExtractAll只提取一个或几个链接,而不是全部。创建自定义UDF,该自定义UDF将提取链接并返回带有链接的数据包。 由于UDF是扩展EvalFunc的任何自定义java代码,因此您

我有这样的元组:
{title:chararray,textWithLinks:chararray}

示例:
(标题1,一些文本[[link]]一些文本[[link]]一些文本…

我需要从文本中提取所有链接并获取元组:
(标题,(link1,link2,link3…)


我该怎么做?RegexExtract或RegexExtractAll只提取一个或几个链接,而不是全部。

创建自定义UDF,该自定义UDF将提取链接并返回带有链接的数据包。
由于UDF是扩展EvalFunc的任何自定义java代码,因此您可以执行任何您想要提取这些链接的操作

请共享示例数据提供测试数据的示例和所需的输出。同时也要提到你尝试过的东西和你被击中的地方。