使用Python或pyspark读取基于位置的CSV文件_Python_Apache Spark_Pyspark

使用Python或pyspark读取基于位置的CSV文件

python apache-spark pyspark

使用Python或pyspark读取基于位置的CSV文件,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,我是Python及其库pyspark的新手，我需要做一些POC，其中我需要读取来自上游的CSV文件。我收到的CSV文件没有任何分隔符，它将是一个基于位置的文件。我们可以在Oracle控制文件中执行此操作，在该文件中，我们可以定义每个列的位置，并检索我在pyspark中执行此操作所需的值我正在使用apachespark来处理Pyspark或python代码例如 TXT文件中的两个示例行，长度可能更大（文件中也可能有空白，需要在定义字段位置时加以考虑）下面是每列所需的值（在我的示例中位置可能

我是Python及其库pyspark的新手，我需要做一些POC，其中我需要读取来自上游的CSV文件。我收到的CSV文件没有任何分隔符，它将是一个基于位置的文件。我们可以在Oracle控制文件中执行此操作，在该文件中，我们可以定义每个列的位置，并检索我在pyspark中执行此操作所需的值

我正在使用apachespark来处理Pyspark或python代码

例如

TXT文件中的两个示例行，长度可能更大（文件中也可能有空白，需要在定义字段位置时加以考虑）

下面是每列所需的值（在我的示例中位置可能错误）

读取CSV文件时，可以指定分隔符：

spark.read.option("delimiter", " ").csv(file)

分隔符可以是a\t的空白。

读取CSV文件时可以指定分隔符：

spark.read.option("delimiter", " ").csv(file)

分隔符可以是a\t中的空白。

您的问题有点不清楚。请告诉我哪里不清楚，以便我可以解释您的问题。请通过尝试这个。这可能会有所帮助@维克兰特·拉纳：谢谢，伙计，这就是我所需要的，只是想知道我有5-6GB的文件，这个选项是否足够做这个活动？你的问题有点不清楚，请告诉我我不清楚的地方，以便我可以解释你，请通过尝试。这可能会有所帮助@维克兰特·拉纳：谢谢，伙计，这就是我所需要的，只是想知道我有5-6GB的文件，这个选项是否足够做这个活动？我的文件中没有任何分隔符，这就是问题所在。我的文件中没有任何分隔符，这就是问题所在

spark.read.option("delimiter", " ").csv(file)