如何使用Spark Dataframes将行从C*导出到CSV文件_Csv_Apache Spark_Dataframe_Cassandra_Spark Cassandra Connector

如何使用Spark Dataframes将行从C*导出到CSV文件

csv apache-spark dataframe cassandra

如何使用Spark Dataframes将行从C*导出到CSV文件,csv,apache-spark,dataframe,cassandra,spark-cassandra-connector,Csv,Apache Spark,Dataframe,Cassandra,Spark Cassandra Connector,我需要定期将C*表中的行归档/冷藏到CSV。例如：将C*表my_表中2016年1月至6月的行导出到CSV my_表。2016_06-30.CSV，将2016年7月至12月my_表中的行导出到my_表。2016-12-31.CSV，依此类推我考虑过CQL来做这件事，但并不是所有的表都有我的行的时间戳列。有人建议我使用Spark Dataframes来实现这一点（因此我可以从Spark Cassandra连接器获得writeTime之类的元数据）我是新的火花卡桑德拉连接器和这种火花的使用有谁能

我需要定期将C*表中的行归档/冷藏到CSV。例如：将C*表my_表中2016年1月至6月的行导出到CSV my_表。2016_06-30.CSV，将2016年7月至12月my_表中的行导出到my_表。2016-12-31.CSV，依此类推

我考虑过CQL来做这件事，但并不是所有的表都有我的行的时间戳列。有人建议我使用Spark Dataframes来实现这一点（因此我可以从Spark Cassandra连接器获得writeTime之类的元数据）

我是新的火花卡桑德拉连接器和这种火花的使用

有谁能给我举一个好例子，说明如何将Cassandra数据帧写入CSV，我在writeTime或类似的地方“过滤”数据帧

提前感谢您的帮助、指导等。

有关表格：

CREATE TABLE myKeySpace.myTable (
id INTPRIMARY KEY,
name TEXT)

做：

我确实看到一些关于

writeTime

支持

DataFrames

的旧任务，尤其是在GitHub上。尚不清楚

writeTime

是否可用于加载和写入DFs

case class SimpleTable(id: Int, name: String, name_writeTime: Long)

val df = sc.cassandraTable[SimpleTable]("saitejal", "mysql_import")
           .select("id", "name", "name".writeTime as "name_writeTime")
           .toDF

# Do filtering as needed

df.select("id", "name").write()
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .save("backup_all.csv");