Apache spark (PySpark)从本地计算机读取数据时出现问题

Apache spark (PySpark)从本地计算机读取数据时出现问题,apache-spark,pyspark,Apache Spark,Pyspark,当我使用pyspark从我的计算机读取数据(DAT文件-4 Gb)时,一切正常,但当我使用pyspark从本地计算机(我公司的其他计算机通过LAN连接)读取数据时,出现以下错误: “”Py4JJavaError:调用o304.csv时出错。 :java.io.IOException:没有架构的文件系统:null“” 如果我使用pandas.read_csv从本地计算机读取文件,一切都很好(只有pyspark有问题)。在这种情况下,请帮助支持。谢谢! 我在计算机中读取数据的代码(没有问题): 我

当我使用pyspark从我的计算机读取数据(DAT文件-4 Gb)时,一切正常,但当我使用pyspark从本地计算机(我公司的其他计算机通过LAN连接)读取数据时,出现以下错误:

“”Py4JJavaError:调用o304.csv时出错。 :java.io.IOException:没有架构的文件系统:null“”

如果我使用pandas.read_csv从本地计算机读取文件,一切都很好(只有pyspark有问题)。在这种情况下,请帮助支持。谢谢!

我在计算机中读取数据的代码(没有问题):

我在本地计算机中读取数据的代码(出现问题):

注:


8LWK8X1是一个本地计算机名

用pandas读取并将其转换为Pyspark数据帧-简单解决方案:)


我不清楚你所说的我的电脑和本地电脑是什么意思,但从我所看到的情况来看,你正在试图远程读取一个文件。方案部分是两条斜线。您是否有可以远程打开文件的有效路径?Spark支持ftp,因此,如果这起作用,您的路径将是
ftp://8LWK8X1/Data/Subfolder1/V04R-V04R-SQLData.dat
。请注意,该方案现在为ftp:且不为null。我尝试根据您的建议读取我的文件,但仍然出现错误。你能给我更多的选择吗?本地计算机是指所有计算机通过LAN(局域网)连接在一起。感谢您的解决方案,问题是此数据非常大(1-4 Gb),因此如果我们通过pandas读取,则会出现一些与长时间加载和ram过大相关的问题。这就是为什么我需要使用一些大数据库来做这件事的原因…但是-如果你使用的是本地机器,也就是说,如果没有很好的处理能力和内存,那么即使你使用Spark也几乎没有什么区别。
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").getOrCreate()

path='V04R-V04R-SQLData.dat' 

df = spark.read.option("delimiter", "\t").csv(path)
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").getOrCreate()

path='//8LWK8X1/Data/Subfolder1/V04R-V04R-SQLData.dat' 

df = spark.read.option("delimiter", "\t").csv(path)
Loading into Pandas DF
gam_charge_item_df = pd.read_scv(path)

Creating a PySpark dataFrame
spark_df = spark.createDataFrame(df)