Hadoop 如何检查HDFS上的文件格式?
给出一个HDFS路径,如何确定它是什么格式(文本、序列或拼花)?我认为要满足您的需求并不容易,除非HDFS中的所有文件都遵循一些约定,例如,文本的Hadoop 如何检查HDFS上的文件格式?,hadoop,hdfs,Hadoop,Hdfs,给出一个HDFS路径,如何确定它是什么格式(文本、序列或拼花)?我认为要满足您的需求并不容易,除非HDFS中的所有文件都遵循一些约定,例如,文本的.txt,序列的.seq和拼花文件的.parquet 但是,您可以使用cat手动检查文件 HDFS cat:hadoop dfs-cat/path/to/file | head检查它是否是文本文件 :拼花工具头[选项…]/path/to/file 或者,编写一个程序来读取 String extension=FilenameUtils.getEx
.txt
,序列的.seq
和拼花文件的.parquet
但是,您可以使用cat
手动检查文件
- HDFS cat:
检查它是否是文本文件hadoop dfs-cat/path/to/file | head
- :拼花工具头[选项…]/path/to/file
- 或者,编写一个程序来读取
- String extension=FilenameUtils.getExtension(“hdfs://path-to-file");
使用Hadoop 2.5.2使用“hdfs dfs-cat/path/to/file | head”
1) 对于orc文件,命令可以在第一行打印“orc”标志
2) 对于拼花文件,该命令可以在第一行打印“PAR1”标志
3) 对于文本文件,命令可以打印文件的所有内容如果文件没有任何扩展名怎么办?这样行吗?