Apache spark （PySpark）从本地计算机读取数据时出现问题_Apache Spark_Pyspark

Apache spark （PySpark）从本地计算机读取数据时出现问题

apache-spark pyspark

Apache spark （PySpark）从本地计算机读取数据时出现问题,apache-spark,pyspark,Apache Spark,Pyspark,当我使用pyspark从我的计算机读取数据（DAT文件-4 Gb）时，一切正常，但当我使用pyspark从本地计算机（我公司的其他计算机通过LAN连接）读取数据时，出现以下错误： “”Py4JJavaError:调用o304.csv时出错。：java.io.IOException:没有架构的文件系统：null“” 如果我使用pandas.read_csv从本地计算机读取文件，一切都很好（只有pyspark有问题）。在这种情况下，请帮助支持。谢谢! 我在计算机中读取数据的代码（没有问题）：我

当我使用pyspark从我的计算机读取数据（DAT文件-4 Gb）时，一切正常，但当我使用pyspark从本地计算机（我公司的其他计算机通过LAN连接）读取数据时，出现以下错误：

“”Py4JJavaError:调用o304.csv时出错。：java.io.IOException:没有架构的文件系统：null“”

如果我使用pandas.read_csv从本地计算机读取文件，一切都很好（只有pyspark有问题）。在这种情况下，请帮助支持。谢谢!

我在计算机中读取数据的代码（没有问题）：

我在本地计算机中读取数据的代码（出现问题）：

注:

8LWK8X1是一个本地计算机名

用pandas读取并将其转换为Pyspark数据帧-简单解决方案：）

我不清楚你所说的我的电脑和本地电脑是什么意思，但从我所看到的情况来看，你正在试图远程读取一个文件。方案部分是两条斜线。您是否有可以远程打开文件的有效路径？Spark支持ftp，因此，如果这起作用，您的路径将是

ftp://8LWK8X1/Data/Subfolder1/V04R-V04R-SQLData.dat

。请注意，该方案现在为ftp:且不为null。我尝试根据您的建议读取我的文件，但仍然出现错误。你能给我更多的选择吗？本地计算机是指所有计算机通过LAN（局域网）连接在一起。感谢您的解决方案，问题是此数据非常大（1-4 Gb），因此如果我们通过pandas读取，则会出现一些与长时间加载和ram过大相关的问题。这就是为什么我需要使用一些大数据库来做这件事的原因…但是-如果你使用的是本地机器，也就是说，如果没有很好的处理能力和内存，那么即使你使用Spark也几乎没有什么区别。

from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").getOrCreate()

path='V04R-V04R-SQLData.dat' 

df = spark.read.option("delimiter", "\t").csv(path)

from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").getOrCreate()

path='//8LWK8X1/Data/Subfolder1/V04R-V04R-SQLData.dat' 

df = spark.read.option("delimiter", "\t").csv(path)

Loading into Pandas DF
gam_charge_item_df = pd.read_scv(path)

Creating a PySpark dataFrame
spark_df = spark.createDataFrame(df)