上载/导入色调中的.csv-指定正确的分隔符等
我正试图将Kaggle.com/datasets上发现的一个有趣的数据集上传到Cloudera的Hue,该数据集包含在一个名为“来自交叉验证堆栈交换的问题”的文件夹中(特别是此处找到的文件“Questions.csv”),以便我可以使用Hive查询数据 但是,我在选择正确上载.csv的分隔符时遇到问题。我看不到可以选择文本限定符、转义字符等的位置。 我使用的是Oracle VirtualBox VM Linux box,我从以下网站下载: 我使用Hadoop的Cloudera发行版来访问色调:我特别使用色调上的Metastore管理器来尝试上传Questions.csv数据文件上载/导入色调中的.csv-指定正确的分隔符等,csv,hadoop,delimiter,hue,Csv,Hadoop,Delimiter,Hue,我正试图将Kaggle.com/datasets上发现的一个有趣的数据集上传到Cloudera的Hue,该数据集包含在一个名为“来自交叉验证堆栈交换的问题”的文件夹中(特别是此处找到的文件“Questions.csv”),以便我可以使用Hive查询数据 但是,我在选择正确上载.csv的分隔符时遇到问题。我看不到可以选择文本限定符、转义字符等的位置。 我使用的是Oracle VirtualBox VM Linux box,我从以下网站下载: 我使用Hadoop的Cloudera发行版来访问色调:我
非常感谢您为上传/导入这样的.csv文件提供任何帮助 您可以首先使用此类参数创建一个表:
CREATE TABLE databaseXX.tableXX (column1 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
有关在中创建配置单元表的详细信息
然后,您必须将csv文件上载到hdfs文件夹中,并使用:
LOAD DATA INPATH '/tmp/myCsvFile'
OVERWRITE INTO TABLE databaseXX.tableXX;
我发现使用色调将csv文件转换为表格是最简单的方法。您可以首先使用此类参数创建表格:
CREATE TABLE databaseXX.tableXX (column1 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
有关在中创建配置单元表的详细信息
然后,您必须将csv文件上载到hdfs文件夹中,并使用:
LOAD DATA INPATH '/tmp/myCsvFile'
OVERWRITE INTO TABLE databaseXX.tableXX;
我发现使用色调将csv文件转换为表格是最简单的方法。“我使用Hadoop的Cloudera发行版访问色调”>>这是另一种方法!色调是Hadoop的一个(相当不错的)用户界面。它可以用于将CSV文件上载到HDFS中(除非在第一个128 MB块限制后被自动截断)、在文件上映射配置单元“外部”表、在SQL中查询表等。但是对于每个单独的任务,您都可以找到更好的工具。@SamsonScharfrichter好的……您还推荐什么工具?“我正在使用Hadoop的Cloudera发行版访问Hue”>>相反!Hue是Hadoop的一个(相当不错的)UI。它可以用来将CSV文件上传到HDFS中(除非在第一个128 MB的块限制后被自动截断),以映射配置单元“外部”“文件上的表,以SQL等方式查询表。但是对于每个单独的任务,您都可以找到更好的工具。@SamsonScharfrichter好的……您还推荐什么工具?”?