Scala Spark筛选出列并使用剩余列创建dataFrame,使用筛选的列创建dataFrame

Scala Spark筛选出列并使用剩余列创建dataFrame,使用筛选的列创建dataFrame,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我是新手 我已经将CSV文件加载到Spark数据框中,比如说OriginalDF 现在我想 1.从中筛选出一些列,并为originalDF创建一个新的数据框架 2.从提取的列中创建数据帧 如何在spark scala中创建这两个数据帧?使用select,您可以选择所需的列 val df2 = OriginalDF.select($"col1",$"col2",$"col3") 使用筛选器,您应该能够筛选行 val df3 = OriginalDF.where($"col1" < 10)

我是新手

我已经将CSV文件加载到Spark数据框中,比如说OriginalDF

现在我想 1.从中筛选出一些列,并为originalDF创建一个新的数据框架 2.从提取的列中创建数据帧


如何在spark scala中创建这两个数据帧?

使用select,您可以选择所需的列

val df2 = OriginalDF.select($"col1",$"col2",$"col3")
使用筛选器,您应该能够筛选行

val df3 = OriginalDF.where($"col1" < 10)
val df3=OriginalDF.where($“col1”<10)
过滤数据的另一种方法是使用where。过滤器和where都是同义词,因此您可以互换使用它们

val df3 = OriginalDF.filter($"col1" < 10)
val df3=OriginalDF.filter($“col1”<10)

注意:select和filter结果返回一个新的数据帧。

谢谢Naveen,您能告诉我如何使用filter方法而不是where子句吗?
filter
where
都用于使用给定条件筛选行
其中
只是
过滤器
的别名。