在Rstudio中读取HDFS块

在Rstudio中读取HDFS块,r,hadoop,R,Hadoop,我想在Rstudio中读取HDFS文件,这不是一个容易实现的CSV文件,但它们是块。我使用sqoop从数据库加载数据,因此我将数据划分为块。 我有这样的文件: /data/_SUCCESS /data/part-m-00000 /data/part-m-00001 /data/part-m-00002 /data/part-m-00003 /data/part-m-00004 /data/part-m-00005 但我无法读取所有文件,使用此命令,我一次只能读取一个文件: hdfs.data它

我想在Rstudio中读取
HDFS
文件,这不是一个容易实现的CSV文件,但它们是块。我使用sqoop从数据库加载数据,因此我将数据划分为块。 我有这样的文件:

/data/_SUCCESS
/data/part-m-00000
/data/part-m-00001
/data/part-m-00002
/data/part-m-00003
/data/part-m-00004
/data/part-m-00005
但我无法读取所有文件,使用此命令,我一次只能读取一个文件:
hdfs.data它们是文本文件吗?您应该能够以与csv文件相同的方式加载

list_tables <- lapply(list.files(hdfs.root,full.names = TRUE), read.table)
library(data.table)
table_composite <- rbindlist(list_tables)
list_tables试试这个:

它将HDFS数据加载到本地,R安装在本地。你可以在数据上做其他的事情

library(data.table)
sdf_local <- fread(paste("hadoop", "fs -text <HDFS file path>"))
head(sdf_local)


Note :<HDFS file path> should be complete path to the file
库(data.table)

sdf_local不是txt文件,正如我提到的,我明白了,m-00001部分。。。你的名字是什么意思?我是否需要写下第m-0001部分第m-0002部分。等等?文件格式是什么?你能用vim这样的文本编辑器打开它吗?如果是这样,您可以使用read.table.no读取它。不,它不是txt格式,我尝试使用nano(一个空文件)打开它,但是为了可视化数据:我键入:hadoop fs-ls/data,我可以看到终端上的所有数据。