Apache pig 如何使用PIG加载具有水平模式记录的文件
我有一个带有水平模式记录的文本文件,如何使用PIG拉丁语将该文件加载到关系中 文件包含患者id和患者姓名 文件中的数据:Apache pig 如何使用PIG加载具有水平模式记录的文件,apache-pig,Apache Pig,我有一个带有水平模式记录的文本文件,如何使用PIG拉丁语将该文件加载到关系中 文件包含患者id和患者姓名 文件中的数据: 001 Rakesh 005 Samir 006 Daksh 010 Kapil 456 Sachin…等我不知道任何开箱即用的加载程序会以您的格式加载数据。你有两个选择 编写自定义LoadFunc 修改输入文件,使每行只有一条记录。然后您就可以使用PigStorage 您应该预处理您的数据,或者您可以加载您的文件并创建一个UDF来拆分它 如果您想预处理数据,我建议您使用Ru
001 Rakesh 005 Samir 006 Daksh 010 Kapil 456 Sachin…等我不知道任何开箱即用的加载程序会以您的格式加载数据。你有两个选择
LoadFunc
PigStorage
您应该预处理您的数据,或者您可以加载您的文件并创建一个UDF来拆分它 如果您想预处理数据,我建议您使用Ruby或Python等方便的语言创建一个脚本来完成这项工作 寻找Python 或者,如果您想要创建一个UDF,您可以使用Google Guava库来分割行,然后创建一个带有元组的bug输出 以谷歌番石榴为例 当然,您必须小心,因为这些方法可能存在可伸缩性问题