Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/joomla/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
上载/导入色调中的.csv-指定正确的分隔符等_Csv_Hadoop_Delimiter_Hue - Fatal编程技术网

上载/导入色调中的.csv-指定正确的分隔符等

上载/导入色调中的.csv-指定正确的分隔符等,csv,hadoop,delimiter,hue,Csv,Hadoop,Delimiter,Hue,我正试图将Kaggle.com/datasets上发现的一个有趣的数据集上传到Cloudera的Hue,该数据集包含在一个名为“来自交叉验证堆栈交换的问题”的文件夹中(特别是此处找到的文件“Questions.csv”),以便我可以使用Hive查询数据 但是,我在选择正确上载.csv的分隔符时遇到问题。我看不到可以选择文本限定符、转义字符等的位置。 我使用的是Oracle VirtualBox VM Linux box,我从以下网站下载: 我使用Hadoop的Cloudera发行版来访问色调:我

我正试图将Kaggle.com/datasets上发现的一个有趣的数据集上传到Cloudera的Hue,该数据集包含在一个名为“来自交叉验证堆栈交换的问题”的文件夹中(特别是此处找到的文件“Questions.csv”),以便我可以使用Hive查询数据

但是,我在选择正确上载.csv的分隔符时遇到问题。我看不到可以选择文本限定符、转义字符等的位置。

我使用的是Oracle VirtualBox VM Linux box,我从以下网站下载:

我使用Hadoop的Cloudera发行版来访问色调:我特别使用色调上的Metastore管理器来尝试上传Questions.csv数据文件


非常感谢您为上传/导入这样的.csv文件提供任何帮助

您可以首先使用此类参数创建一个表:

CREATE TABLE databaseXX.tableXX (column1 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
有关在中创建配置单元表的详细信息

然后,您必须将csv文件上载到hdfs文件夹中,并使用:

LOAD DATA INPATH '/tmp/myCsvFile' 
 OVERWRITE INTO TABLE databaseXX.tableXX;

我发现使用色调将csv文件转换为表格是最简单的方法。

您可以首先使用此类参数创建表格:

CREATE TABLE databaseXX.tableXX (column1 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
有关在中创建配置单元表的详细信息

然后,您必须将csv文件上载到hdfs文件夹中,并使用:

LOAD DATA INPATH '/tmp/myCsvFile' 
 OVERWRITE INTO TABLE databaseXX.tableXX;

我发现使用色调将csv文件转换为表格是最简单的方法。

“我使用Hadoop的Cloudera发行版访问色调”>>这是另一种方法!色调是Hadoop的一个(相当不错的)用户界面。它可以用于将CSV文件上载到HDFS中(除非在第一个128 MB块限制后被自动截断)、在文件上映射配置单元“外部”表、在SQL中查询表等。但是对于每个单独的任务,您都可以找到更好的工具。@SamsonScharfrichter好的……您还推荐什么工具?“我正在使用Hadoop的Cloudera发行版访问Hue”>>相反!Hue是Hadoop的一个(相当不错的)UI。它可以用来将CSV文件上传到HDFS中(除非在第一个128 MB的块限制后被自动截断),以映射配置单元“外部”“文件上的表,以SQL等方式查询表。但是对于每个单独的任务,您都可以找到更好的工具。@SamsonScharfrichter好的……您还推荐什么工具?”?