Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/291.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用python读取1TB HDFS csv文件的有效方法是什么_Python_Hadoop_Pyspark_Hdfs - Fatal编程技术网

使用python读取1TB HDFS csv文件的有效方法是什么

使用python读取1TB HDFS csv文件的有效方法是什么,python,hadoop,pyspark,hdfs,Python,Hadoop,Pyspark,Hdfs,我有一个放在HDFS中的文件。我想知道使用python读取文件的有效方法是什么。我可以使用pyspark吗?您可以使用pyspark,这是一个pythonapi for Spark。它将允许您使用Spark利用集群资源。我建议从1 TB的文件中选取一个较小的块,并在此块上测试您的代码。如果一切看起来都不错,那么您可以在更大的数据集上提交作业 如果使用Skp:取决于你在集群上有多少内存,考虑缓存你打算频繁重用的内存中的RDDS 。这将加快作业的执行。1 Tb csv文件?Gooby plsDid您

我有一个放在HDFS中的文件。我想知道使用python读取文件的有效方法是什么。我可以使用pyspark吗?

您可以使用
pyspark
,这是一个
pythonapi for Spark
。它将允许您使用
Spark
利用集群资源。我建议从1 TB的文件中选取一个较小的块,并在此块上测试您的代码。如果一切看起来都不错,那么您可以在更大的数据集上提交作业


如果使用Skp:取决于你在集群上有多少内存,考虑缓存你打算频繁重用的内存中的RDDS 。这将加快作业的执行。

1 Tb csv文件?Gooby plsDid您是否尝试Spark?最“有效”的方法是1)在Hadoop中不使用CSV-将其转换为拼花地板2)在其上定义一个蜂巢表,并使用Presto或Impala(如果有)。否则,Hive或SparkCheck out Dask。您打算如何处理这些数据?HDFS和YARN在处理数据方面非常有效,但是您需要的实际工具是由用例定义的。