Scala 如何读取没有扩展名的文件? 我刚刚从服务器“hdfs dfs-get/user/hive/warehouse/”下载了一些文件 从下载的文件夹中,该文件没有扩展名(我希望它是拼花地板文件),当我使用命令“file*”检查时,它显示000000\u 0:data 我使用val rddFromFile=spark.sparkContext.textFile(“路径”),它显示每一行都没有分隔,或者在每个字段之间都有“?”符号
我可以知道它是什么文件吗?我应该如何将它读入适当的数据库/数据帧?我尝试拆分(“?”),但它不起作用使用Scala 如何读取没有扩展名的文件? 我刚刚从服务器“hdfs dfs-get/user/hive/warehouse/”下载了一些文件 从下载的文件夹中,该文件没有扩展名(我希望它是拼花地板文件),当我使用命令“file*”检查时,它显示000000\u 0:data 我使用val rddFromFile=spark.sparkContext.textFile(“路径”),它显示每一行都没有分隔,或者在每个字段之间都有“?”符号,scala,apache-spark,Scala,Apache Spark,我可以知道它是什么文件吗?我应该如何将它读入适当的数据库/数据帧?我尝试拆分(“?”),但它不起作用使用拼花工具查看数据 hadoop-jar./parquet-tools-.jar-cat 有关拼花工具的更多信息,请查看此链接 或 只需执行hdfs-dfs-cat/user/hive/warehouse/000000\u 0 如果是拼花地板,则结构如下 拼花地板文件: 在较高级别上,拼花地板文件由页眉、一个或多个块和页脚组成。拼花文件格式在页眉(PAR1)和页脚末尾包含一个4字节的幻数。这是一
拼花工具查看数据
hadoop-jar./parquet-tools-.jar-cat
有关拼花工具的更多信息,请查看此链接
或
只需执行hdfs-dfs-cat/user/hive/warehouse/000000\u 0
如果是拼花地板,则结构如下
拼花地板文件:
在较高级别上,拼花地板文件由页眉、一个或多个块和页脚组成。拼花文件格式在页眉(PAR1)
和页脚末尾包含一个4字节的幻数。这是一个神奇的数字,表示文件是拼花格式的
使用orcfiledump
实用程序查看内容
ORC文件转储实用程序附带配置单元(0.11或更高版本):
hive--orcfiledump
ORC文件:
ORC是一种列文件格式。可以将ORC文件的结构可视化为分为页眉、正文和页脚的区域
标题部分:
标题包含文本ORC
,以防在处理时需要某些工具来确定文件类型
此外,您可以在windows上获取文件,然后只需在编辑器(notepad++)中打开文件即可。不过,它是一个二进制文件。您仍然可以在第一行中看到,如ORC
或PAR1
,后面是一些其他加密字符。Hi Vijay,感谢我刚才使用hdfs dfs-cat/user/hive/warehouse/000000\u 0检查的答案,它看起来像是一个文本文件,而不是拼花文件,奇怪的是,如果我将其作为文本文件导入,分隔符是“?”我不能用分割法分割。分割(“?”)