Hadoop 如何将多个xls文件中的xls数据加载到配置单元中?

Hadoop 如何将多个xls文件中的xls数据加载到配置单元中?,hadoop,hive,bigdata,Hadoop,Hive,Bigdata,我正在学习使用Hadoop执行与大数据相关的操作 我需要对分割成8 xls文件的数据集集合执行一些查询。每个xls文件都有多张图纸,查询只涉及其中一张图纸 数据集可在此处下载: 我没有在我的任务中使用任何hadoop的商业发行版,只是在VmWare中设置了一个主虚拟机和一个从虚拟机,其中包含hadoop、Hive和Pig 我是Hadoop和大数据的新手,所以如果有人能指导我如何进一步,我将非常感激 如果您需要查询信息或其他任何信息,请告诉我 谢谢。在配置单元中,您不能像对待txt或csv文件那样

我正在学习使用Hadoop执行与大数据相关的操作

我需要对分割成8 xls文件的数据集集合执行一些查询。每个xls文件都有多张图纸,查询只涉及其中一张图纸

数据集可在此处下载:

我没有在我的任务中使用任何hadoop的商业发行版,只是在VmWare中设置了一个主虚拟机和一个从虚拟机,其中包含hadoop、Hive和Pig

我是Hadoop和大数据的新手,所以如果有人能指导我如何进一步,我将非常感激

如果您需要查询信息或其他任何信息,请告诉我


谢谢。

在配置单元中,您不能像对待txt或csv文件那样,直接从xls将数据加载到表中

您有两个选择:

  • 编写一个应用程序(如Java)来读取xls文件并将其转换为文本或csv文件,这些文件可以直接加载到配置单元中

  • 您可以创建自己的serde(序列化器或反序列化器),用于解析要加载到表中的xls数据

  • 两者都有各自的优点和缺点,但如果您打算使用与配置单元交互的应用程序进行加载、查询、转换等,则可以使用选项1。但是,如果您打算通过脚本/批处理等方式进行操作,您可以选择选项2。

    感谢Srikanth的回答:)@Srikanthnutigatu我需要使用hive读取HDFS中的形状文件。我知道我应该使用编写自定义SerDe的选项2。但无法获得任何合适的样本或示例。任何帮助都是非常有用的