Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ruby-on-rails/61.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用Spark Dataframes将行从C*导出到CSV文件_Csv_Apache Spark_Dataframe_Cassandra_Spark Cassandra Connector - Fatal编程技术网

如何使用Spark Dataframes将行从C*导出到CSV文件

如何使用Spark Dataframes将行从C*导出到CSV文件,csv,apache-spark,dataframe,cassandra,spark-cassandra-connector,Csv,Apache Spark,Dataframe,Cassandra,Spark Cassandra Connector,我需要定期将C*表中的行归档/冷藏到CSV。例如:将C*表my_表中2016年1月至6月的行导出到CSV my_表。2016_06-30.CSV,将2016年7月至12月my_表中的行导出到my_表。2016-12-31.CSV,依此类推 我考虑过CQL来做这件事,但并不是所有的表都有我的行的时间戳列。有人建议我使用Spark Dataframes来实现这一点(因此我可以从Spark Cassandra连接器获得writeTime之类的元数据) 我是新的火花卡桑德拉连接器和这种火花的使用 有谁能

我需要定期将C*表中的行归档/冷藏到CSV。例如:将C*表my_表中2016年1月至6月的行导出到CSV my_表。2016_06-30.CSV,将2016年7月至12月my_表中的行导出到my_表。2016-12-31.CSV,依此类推

我考虑过CQL来做这件事,但并不是所有的表都有我的行的时间戳列。有人建议我使用Spark Dataframes来实现这一点(因此我可以从Spark Cassandra连接器获得writeTime之类的元数据)

我是新的火花卡桑德拉连接器和这种火花的使用

有谁能给我举一个好例子,说明如何将Cassandra数据帧写入CSV,我在writeTime或类似的地方“过滤”数据帧

提前感谢您的帮助、指导等。

有关表格:

CREATE TABLE myKeySpace.myTable (
id INTPRIMARY KEY,
name TEXT)
做:

我确实看到一些关于
writeTime
支持
DataFrames
的旧任务,尤其是在GitHub上。尚不清楚
writeTime
是否可用于加载和写入DFs

case class SimpleTable(id: Int, name: String, name_writeTime: Long)

val df = sc.cassandraTable[SimpleTable]("saitejal", "mysql_import")
           .select("id", "name", "name".writeTime as "name_writeTime")
           .toDF

# Do filtering as needed

df.select("id", "name").write()
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .save("backup_all.csv");