Hadoop 读取清管器中delemeter输入数据的文件

Hadoop 读取清管器中delemeter输入数据的文件,hadoop,apache-pig,Hadoop,Apache Pig,我想使用PIG读取CSV文件我该怎么做?。我使用load PIGN存储(“,”),但它无法正确读取CSV文件,因为它在数据中遇到逗号(,)时会将其拆分。如果数据中也有逗号,我现在应该如何给出delimeter 通常不可能区分数据中的逗号和作为分隔符的逗号。 您需要转义“数据”中的逗号,以及可以识别转义逗号的自定义加载函数(用于Pig) 看看这里: 通常不可能区分数据中的逗号和作为分隔符的逗号。 您需要转义“数据”中的逗号,以及可以识别转义逗号的自定义加载函数(用于Pig) 看看这里: 如果要

我想使用PIG读取CSV文件我该怎么做?。我使用load PIGN存储(“,”),但它无法正确读取CSV文件,因为它在数据中遇到逗号(,)时会将其拆分。如果数据中也有逗号,我现在应该如何给出delimeter

通常不可能区分数据中的逗号和作为分隔符的逗号。 您需要转义“数据”中的逗号,以及可以识别转义逗号的自定义加载函数(用于Pig)

看看这里:


通常不可能区分数据中的逗号和作为分隔符的逗号。 您需要转义“数据”中的逗号,以及可以识别转义逗号的自定义加载函数(用于Pig)

看看这里:


如果要读取CSV文件,您是否查看了中的加载程序?(当然,文件格式必须有效)

如果要读取CSV文件,您是否查看了中的加载程序?(当然,文件格式必须有效)

首先确保您有一个有效的CSV文件。如果您没有尝试通过Excel(如果文件很小)或其他工具更改源文件,并为数据导出一个带有良好分隔符的新CSV(例如:\t tab,;,等等)。更好的方法是使用“好”分隔符进行另一次提取

您的负载示例如下所示:

TABLE=使用PigStorage(“;”)作为(站点id:int)加载“input.csv”, 姓名:chararray,…)

您的转储示例:


使用PigStorage(',')将表存储到“clean.csv”中 首先确保您有一个有效的CSV文件。如果您没有尝试通过Excel(如果文件很小)或其他工具更改源文件,并为数据导出一个带有良好分隔符的新CSV(例如:\t tab,;,等等)。更好的方法是使用“好”分隔符进行另一次提取

您的负载示例如下所示:

TABLE=使用PigStorage(“;”)作为(站点id:int)加载“input.csv”, 姓名:chararray,…)

您的转储示例:


使用PigStorage(',')将表存储到“clean.csv”中;如果我想将文件存储为CSV怎么办..我得到了CSVExcelStorage,但它不在piggybank.jar中,我无法构建它..有什么建议吗?如果我想将文件存储为CSV怎么办..我得到了CSVExcelStorage,但它不在piggybank.jar中,我无法构建它..有什么建议吗?