Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 如何读取没有扩展名的文件? 我刚刚从服务器“hdfs dfs-get/user/hive/warehouse/”下载了一些文件 从下载的文件夹中,该文件没有扩展名(我希望它是拼花地板文件),当我使用命令“file*”检查时,它显示000000\u 0:data 我使用val rddFromFile=spark.sparkContext.textFile(“路径”),它显示每一行都没有分隔,或者在每个字段之间都有“?”符号_Scala_Apache Spark - Fatal编程技术网

Scala 如何读取没有扩展名的文件? 我刚刚从服务器“hdfs dfs-get/user/hive/warehouse/”下载了一些文件 从下载的文件夹中,该文件没有扩展名(我希望它是拼花地板文件),当我使用命令“file*”检查时,它显示000000\u 0:data 我使用val rddFromFile=spark.sparkContext.textFile(“路径”),它显示每一行都没有分隔,或者在每个字段之间都有“?”符号

Scala 如何读取没有扩展名的文件? 我刚刚从服务器“hdfs dfs-get/user/hive/warehouse/”下载了一些文件 从下载的文件夹中,该文件没有扩展名(我希望它是拼花地板文件),当我使用命令“file*”检查时,它显示000000\u 0:data 我使用val rddFromFile=spark.sparkContext.textFile(“路径”),它显示每一行都没有分隔,或者在每个字段之间都有“?”符号,scala,apache-spark,Scala,Apache Spark,我可以知道它是什么文件吗?我应该如何将它读入适当的数据库/数据帧?我尝试拆分(“?”),但它不起作用使用拼花工具查看数据 hadoop-jar./parquet-tools-.jar-cat 有关拼花工具的更多信息,请查看此链接 或 只需执行hdfs-dfs-cat/user/hive/warehouse/000000\u 0 如果是拼花地板,则结构如下 拼花地板文件: 在较高级别上,拼花地板文件由页眉、一个或多个块和页脚组成。拼花文件格式在页眉(PAR1)和页脚末尾包含一个4字节的幻数。这是一

我可以知道它是什么文件吗?我应该如何将它读入适当的数据库/数据帧?我尝试拆分(“?”),但它不起作用

使用
拼花工具查看数据

hadoop-jar./parquet-tools-.jar-cat

有关拼花工具的更多信息,请查看此链接

只需执行
hdfs-dfs-cat/user/hive/warehouse/000000\u 0

如果是拼花地板,则结构如下

拼花地板文件:

在较高级别上,拼花地板文件由页眉、一个或多个块和页脚组成。拼花文件格式在页眉
(PAR1)
和页脚末尾包含一个4字节的幻数。这是一个神奇的数字,表示文件是拼花格式的

使用
orcfiledump
实用程序查看内容 ORC文件转储实用程序附带配置单元(0.11或更高版本):

hive--orcfiledump

ORC文件:

ORC是一种列文件格式。可以将ORC文件的结构可视化为分为页眉、正文和页脚的区域

标题部分: 标题包含文本
ORC
,以防在处理时需要某些工具来确定文件类型


此外,您可以在windows上获取文件,然后只需在编辑器(notepad++)中打开文件即可。不过,它是一个二进制文件。您仍然可以在第一行中看到,如
ORC
PAR1
,后面是一些其他加密字符。

Hi Vijay,感谢我刚才使用hdfs dfs-cat/user/hive/warehouse/000000\u 0检查的答案,它看起来像是一个文本文件,而不是拼花文件,奇怪的是,如果我将其作为文本文件导入,分隔符是“?”我不能用分割法分割。分割(“?”)