使用Python或pyspark读取基于位置的CSV文件
我是Python及其库pyspark的新手,我需要做一些POC,其中我需要读取来自上游的CSV文件。我收到的CSV文件没有任何分隔符,它将是一个基于位置的文件。 我们可以在Oracle控制文件中执行此操作,在该文件中,我们可以定义每个列的位置,并检索我在pyspark中执行此操作所需的值 我正在使用apachespark来处理Pyspark或python代码 例如 TXT文件中的两个示例行,长度可能更大(文件中也可能有空白,需要在定义字段位置时加以考虑) 下面是每列所需的值(在我的示例中位置可能错误)使用Python或pyspark读取基于位置的CSV文件,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,我是Python及其库pyspark的新手,我需要做一些POC,其中我需要读取来自上游的CSV文件。我收到的CSV文件没有任何分隔符,它将是一个基于位置的文件。 我们可以在Oracle控制文件中执行此操作,在该文件中,我们可以定义每个列的位置,并检索我在pyspark中执行此操作所需的值 我正在使用apachespark来处理Pyspark或python代码 例如 TXT文件中的两个示例行,长度可能更大(文件中也可能有空白,需要在定义字段位置时加以考虑) 下面是每列所需的值(在我的示例中位置可能
读取CSV文件时,可以指定分隔符:
spark.read.option("delimiter", " ").csv(file)
分隔符可以是a\t的空白。读取CSV文件时可以指定分隔符:
spark.read.option("delimiter", " ").csv(file)
分隔符可以是a\t中的空白。您的问题有点不清楚。请告诉我哪里不清楚,以便我可以解释您的问题。请通过尝试这个。这可能会有所帮助@维克兰特·拉纳:谢谢,伙计,这就是我所需要的,只是想知道我有5-6GB的文件,这个选项是否足够做这个活动?你的问题有点不清楚,请告诉我我不清楚的地方,以便我可以解释你,请通过尝试。这可能会有所帮助@维克兰特·拉纳:谢谢,伙计,这就是我所需要的,只是想知道我有5-6GB的文件,这个选项是否足够做这个活动?我的文件中没有任何分隔符,这就是问题所在。我的文件中没有任何分隔符,这就是问题所在
spark.read.option("delimiter", " ").csv(file)