Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/webpack/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用Python或pyspark读取基于位置的CSV文件_Python_Apache Spark_Pyspark - Fatal编程技术网

使用Python或pyspark读取基于位置的CSV文件

使用Python或pyspark读取基于位置的CSV文件,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,我是Python及其库pyspark的新手,我需要做一些POC,其中我需要读取来自上游的CSV文件。我收到的CSV文件没有任何分隔符,它将是一个基于位置的文件。 我们可以在Oracle控制文件中执行此操作,在该文件中,我们可以定义每个列的位置,并检索我在pyspark中执行此操作所需的值 我正在使用apachespark来处理Pyspark或python代码 例如 TXT文件中的两个示例行,长度可能更大(文件中也可能有空白,需要在定义字段位置时加以考虑) 下面是每列所需的值(在我的示例中位置可能

我是Python及其库pyspark的新手,我需要做一些POC,其中我需要读取来自上游的CSV文件。我收到的CSV文件没有任何分隔符,它将是一个基于位置的文件。 我们可以在Oracle控制文件中执行此操作,在该文件中,我们可以定义每个列的位置,并检索我在pyspark中执行此操作所需的值

我正在使用apachespark来处理Pyspark或python代码

例如

TXT文件中的两个示例行,长度可能更大(文件中也可能有空白,需要在定义字段位置时加以考虑)

下面是每列所需的值(在我的示例中位置可能错误)


读取CSV文件时,可以指定分隔符:

spark.read.option("delimiter", " ").csv(file)

分隔符可以是a\t的空白。

读取CSV文件时可以指定分隔符:

spark.read.option("delimiter", " ").csv(file)

分隔符可以是a\t中的空白。

您的问题有点不清楚。请告诉我哪里不清楚,以便我可以解释您的问题。请通过尝试这个。这可能会有所帮助@维克兰特·拉纳:谢谢,伙计,这就是我所需要的,只是想知道我有5-6GB的文件,这个选项是否足够做这个活动?你的问题有点不清楚,请告诉我我不清楚的地方,以便我可以解释你,请通过尝试。这可能会有所帮助@维克兰特·拉纳:谢谢,伙计,这就是我所需要的,只是想知道我有5-6GB的文件,这个选项是否足够做这个活动?我的文件中没有任何分隔符,这就是问题所在。我的文件中没有任何分隔符,这就是问题所在
spark.read.option("delimiter", " ").csv(file)