Hadoop 如何检查HDFS上的文件格式?

Hadoop 如何检查HDFS上的文件格式?,hadoop,hdfs,Hadoop,Hdfs,给出一个HDFS路径,如何确定它是什么格式(文本、序列或拼花)?我认为要满足您的需求并不容易,除非HDFS中的所有文件都遵循一些约定,例如,文本的.txt,序列的.seq和拼花文件的.parquet 但是,您可以使用cat手动检查文件 HDFS cat:hadoop dfs-cat/path/to/file | head检查它是否是文本文件 :拼花工具头[选项…]/path/to/file 或者,编写一个程序来读取 String extension=FilenameUtils.getEx

给出一个HDFS路径,如何确定它是什么格式(文本、序列或拼花)?

我认为要满足您的需求并不容易,除非HDFS中的所有文件都遵循一些约定,例如,文本的
.txt
,序列的
.seq
和拼花文件的
.parquet

但是,您可以使用
cat
手动检查文件

  • HDFS cat:
    hadoop dfs-cat/path/to/file | head
    检查它是否是文本文件

  • :拼花工具头[选项…]/path/to/file

  • 或者,编写一个程序来读取


    • String extension=FilenameUtils.getExtension(“hdfs://path-to-file"); 使用Hadoop 2.5.2使用“hdfs dfs-cat/path/to/file | head”

      1) 对于orc文件,命令可以在第一行打印“orc”标志

      2) 对于拼花文件,该命令可以在第一行打印“PAR1”标志


      3) 对于文本文件,命令可以打印文件的所有内容

      如果文件没有任何扩展名怎么办?这样行吗?