使用python读取1TB HDFS csv文件的有效方法是什么_Python_Hadoop_Pyspark_Hdfs

使用python读取1TB HDFS csv文件的有效方法是什么

python hadoop pyspark

使用python读取1TB HDFS csv文件的有效方法是什么,python,hadoop,pyspark,hdfs,Python,Hadoop,Pyspark,Hdfs,我有一个放在HDFS中的文件。我想知道使用python读取文件的有效方法是什么。我可以使用pyspark吗？您可以使用pyspark，这是一个pythonapi for Spark。它将允许您使用Spark利用集群资源。我建议从1 TB的文件中选取一个较小的块，并在此块上测试您的代码。如果一切看起来都不错，那么您可以在更大的数据集上提交作业如果使用Skp:取决于你在集群上有多少内存，考虑缓存你打算频繁重用的内存中的RDDS 。这将加快作业的执行。1 Tb csv文件？Gooby plsDid您

我有一个放在HDFS中的文件。我想知道使用python读取文件的有效方法是什么。我可以使用pyspark吗？

您可以使用

pyspark

，这是一个

pythonapi for Spark

。它将允许您使用

Spark

利用集群资源。我建议从1 TB的文件中选取一个较小的块，并在此块上测试您的代码。如果一切看起来都不错，那么您可以在更大的数据集上提交作业

如果使用Skp:取决于你在集群上有多少内存，考虑缓存你打算频繁重用的内存中的RDDS 。这将加快作业的执行。

1 Tb csv文件？Gooby plsDid您是否尝试Spark？最“有效”的方法是1）在Hadoop中不使用CSV-将其转换为拼花地板2）在其上定义一个蜂巢表，并使用Presto或Impala（如果有）。否则，Hive或SparkCheck out Dask。您打算如何处理这些数据？HDFS和YARN在处理数据方面非常有效，但是您需要的实际工具是由用例定义的。