Python 文件未显示。正在HDFS中复制

Python 文件未显示。正在HDFS中复制,python,hadoop,hdfs,cloudera,bigdata,Python,Hadoop,Hdfs,Cloudera,Bigdata,我正在尝试使用python解析一个文件,并尝试将其存储在HDFS中。几天前代码运行良好,但从今天早上开始,我在执行代码时没有收到任何错误,但在HDFS目录中,我得到了数据。正在复制。它根本不是从复制开始的。我做错了什么 代码: import subprocess from subprocess import Popen, PIPE cat = subprocess.Popen(["hadoop", "fs", "-cat", "/user/cloudera/pin/*"], stdout=su

我正在尝试使用python解析一个文件,并尝试将其存储在HDFS中。几天前代码运行良好,但从今天早上开始,我在执行代码时没有收到任何错误,但在HDFS目录中,我得到了数据。正在复制。它根本不是从复制开始的。我做错了什么

代码:

import subprocess
from subprocess import Popen, PIPE

cat = subprocess.Popen(["hadoop", "fs", "-cat", "/user/cloudera/pin/*"], stdout=subprocess.PIPE)
dumpoff = Popen(["hadoop", "fs", "-put", "-", "/user/cloudera/DATA"],stdin=PIPE)
obrInd = "0"
line1 = ""
for line in cat.stdout:
    code = line.split('|')[1]
    idval = line.split('|')[2]
    if (code == "OB"):
        obrInd = runnno
    line1 =line.strip() + "|"+"OB_"+obrInd  
    dumpoff.stdin.write(line1)
    print(line1)
更新:

Configured Capacity: 424169496576 (395.04 GB)
Present Capacity: 348671389696 (324.73 GB)
DFS Remaining: 153408200704 (142.87 GB)
DFS Used: 195263188992 (181.85 GB)
DFS Used%: 56.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0

-------------------------------------------------
report: Access denied for user cloudera. Superuser privilege is required

您的数据节点正在运行吗?我如何检查?现在我所有的服务都很健康。顺便说一句,我正在使用Cloudera快速入门。同时检查空间问题。这段代码在我的集群上运行良好。感谢@franklinsijo检查代码。你能告诉我有什么方法可以从cloudera中删除不必要的内容吗?你能用
hdfs dfsadmin-report
的输出更新帖子吗。不必要的东西是什么意思?你的数据节点正在运行吗?我如何检查?现在我所有的服务都很健康。顺便说一句,我正在使用Cloudera快速入门。同时检查空间问题。这段代码在我的集群上运行良好。感谢@franklinsijo检查代码。你能告诉我有什么方法可以从cloudera中删除不必要的内容吗?你能用
hdfs dfsadmin-report
的输出更新帖子吗。你说的不必要的东西是什么意思?