使用python读取1TB HDFS csv文件的有效方法是什么
我有一个放在HDFS中的文件。我想知道使用python读取文件的有效方法是什么。我可以使用pyspark吗?您可以使用使用python读取1TB HDFS csv文件的有效方法是什么,python,hadoop,pyspark,hdfs,Python,Hadoop,Pyspark,Hdfs,我有一个放在HDFS中的文件。我想知道使用python读取文件的有效方法是什么。我可以使用pyspark吗?您可以使用pyspark,这是一个pythonapi for Spark。它将允许您使用Spark利用集群资源。我建议从1 TB的文件中选取一个较小的块,并在此块上测试您的代码。如果一切看起来都不错,那么您可以在更大的数据集上提交作业 如果使用Skp:取决于你在集群上有多少内存,考虑缓存你打算频繁重用的内存中的RDDS 。这将加快作业的执行。1 Tb csv文件?Gooby plsDid您
pyspark
,这是一个pythonapi for Spark
。它将允许您使用Spark
利用集群资源。我建议从1 TB的文件中选取一个较小的块,并在此块上测试您的代码。如果一切看起来都不错,那么您可以在更大的数据集上提交作业
如果使用Skp:取决于你在集群上有多少内存,考虑缓存你打算频繁重用的内存中的