Apache pig 猪字新纪录

Apache pig 猪字新纪录,apache-pig,latin,Apache Pig,Latin,我正在处理文件中的以下邮件数据(数据来源:infochimps) 消息ID: 日期:2000年12月13日星期三13:09:00-0800(太平洋标准时间) 发件人:约翰。arnold@enron.com 致:slafontaine@globalp.com 主题:re:价差 Mime版本:1.0 内容类型:文本/纯文本;字符集=美国ascii码 内容传输编码:7bit X-From:约翰·阿诺德 X-To:slafontaine@globalp.com@ENRON X-cc: X-bcc: X文

我正在处理文件中的以下邮件数据<代码>(数据来源:infochimps)

消息ID:
日期:2000年12月13日星期三13:09:00-0800(太平洋标准时间)
发件人:约翰。arnold@enron.com
致:slafontaine@globalp.com
主题:re:价差
Mime版本:1.0
内容类型:文本/纯文本;字符集=美国ascii码
内容传输编码:7bit
X-From:约翰·阿诺德
X-To:slafontaine@globalp.com@ENRON
X-cc:
X-bcc:
X文件夹:\John\u Arnold\u Dec2000\Notes文件夹\sent mail
X源:Arnold-J
X-FileName:Jarnold.nsf

看到了很多多头在夏季对前多头抛售以缓解压力 保证金/绝对持仓限额/风险。因为这些人正在 前面,他们也买回夏天。埃尔帕索明年冬天的大买家 今天,息差正在减少。这当然是利差如此之大的原因 在上升的路上,这样的一块现在。真的是唯一有风险的人 高级内置现在是h/j。它的交易量相当于180美元, 从今天早上开始下降了40多。当然,如果我们正进入熊市时期

…………]

我将上述数据加载为:-

A=load'/root/test/enron\u mail/maildir/*/*/*/*'使用PigStorage(':')作为(f1:chararray,f2:chararray)

但是对于消息体,我得到了单独的元组,因为消息体包含新行

如何将最后一行合并为一行? 我想在单元组中包含以下部分:

看到了很多多头在夏季对前多头抛售以缓解压力 保证金/绝对持仓限额/风险。因为这些人正在 前面,他们也买回夏天。埃尔帕索明年冬天的大买家 今天,息差正在减少。这当然是利差如此之大的原因 在上升的路上,这样的一块现在。真的是唯一有风险的人 高级内置现在是h/j。它的交易量相当于180美元,
从今天早上开始下降了40多。当然,如果我们正在进入一个看跌期,您是否考虑过使用REPLACE function()将换行符替换为其他字符?如果每个输入都是一个文件,那么您可以使用一些shell脚本替换换行符,然后再将其输入到pig脚本,或者您必须编写一个UDF来加载数据。好的,假设我用一些字符替换换行符,例如逗号(,)。那个么猪脚本是如何识别新记录的呢?