Python 从s3读取csv文件,不包括某些值

Python 从s3读取csv文件,不包括某些值,python,amazon-web-services,amazon-s3,Python,Amazon Web Services,Amazon S3,我如何从s3读取csv文件而没有几个值 例:列表[a,b] 除了值a和b。我需要读取csv中的所有其他值。我知道如何从s3读取整个csvsqlContext.read.csv(s3_path,header=True)但是如何从文件中排除这两个值并读取文件的其余部分。您不需要。文件是一种顺序存储介质。CSV文件是文本文件的一种形式:它的字符索引。因此,要排除列,必须首先读取并处理字符以查找列边界 即使你能神奇地找到这些边界,你也必须寻找越过这些位置;这可能会比简单地读取和忽略字符花费更多的时间,因

我如何从s3读取csv文件而没有几个值

例:列表[a,b]
除了值a和b。我需要读取csv中的所有其他值。我知道如何从s3读取整个csv
sqlContext.read.csv(s3_path,header=True)
但是如何从文件中排除这两个值并读取文件的其余部分。

您不需要。文件是一种顺序存储介质。CSV文件是文本文件的一种形式:它的字符索引。因此,要排除列,必须首先读取并处理字符以查找列边界

即使你能神奇地找到这些边界,你也必须
寻找
越过这些位置;这可能会比简单地读取和忽略字符花费更多的时间,因为您将中断驱动大多数文件缓冲的通常、平滑的块传输指令


正如注释所告诉您的,只需按原样读取文件并丢弃不需要的数据,作为数据清理的一部分。如果您反复需要该文件,请清理一次,然后将该版本用于您的程序。

如果您只想获得几行,可以使用。这是一种在不下载S3对象的情况下对其运行SQL的方法

或者,您可以使用Amazon Athena来使用SQL查询CSV文件


但是,下载整个文件并在Python应用程序中进行本地处理可能更容易。

在阅读CSV文件后,为什么不能删除或忽略无关的列?示例:想知道我们是否可以在读取csv文件时执行此操作…谢谢:)