Apache pig 如何使用PIG加载具有水平模式记录的文件

Apache pig 如何使用PIG加载具有水平模式记录的文件,apache-pig,Apache Pig,我有一个带有水平模式记录的文本文件,如何使用PIG拉丁语将该文件加载到关系中 文件包含患者id和患者姓名 文件中的数据: 001 Rakesh 005 Samir 006 Daksh 010 Kapil 456 Sachin…等我不知道任何开箱即用的加载程序会以您的格式加载数据。你有两个选择 编写自定义LoadFunc 修改输入文件,使每行只有一条记录。然后您就可以使用PigStorage 您应该预处理您的数据,或者您可以加载您的文件并创建一个UDF来拆分它 如果您想预处理数据,我建议您使用Ru

我有一个带有水平模式记录的文本文件,如何使用PIG拉丁语将该文件加载到关系中

文件包含患者id和患者姓名

文件中的数据:
001 Rakesh 005 Samir 006 Daksh 010 Kapil 456 Sachin…等

我不知道任何开箱即用的加载程序会以您的格式加载数据。你有两个选择

  • 编写自定义
    LoadFunc
  • 修改输入文件,使每行只有一条记录。然后您就可以使用
    PigStorage

  • 您应该预处理您的数据,或者您可以加载您的文件并创建一个UDF来拆分它

    如果您想预处理数据,我建议您使用Ruby或Python等方便的语言创建一个脚本来完成这项工作

    寻找Python

    或者,如果您想要创建一个UDF,您可以使用Google Guava库来分割行,然后创建一个带有元组的bug输出

    以谷歌番石榴为例

    当然,您必须小心,因为这些方法可能存在可伸缩性问题