将JSON对象流到SQLite
堆栈溢出社区 我有以下问题: 我使用Spark Streaming和KafkaUtils读取卡夫卡主题,然后将数据流转换为JSON。我想要的是将这个JSON对象以列-行格式保存到SQLite数据库中 我在spark streaming中运行的代码示例:将JSON对象流到SQLite,json,sqlite,apache-spark,pyspark,spark-streaming,Json,Sqlite,Apache Spark,Pyspark,Spark Streaming,堆栈溢出社区 我有以下问题: 我使用Spark Streaming和KafkaUtils读取卡夫卡主题,然后将数据流转换为JSON。我想要的是将这个JSON对象以列-行格式保存到SQLite数据库中 我在spark streaming中运行的代码示例: import sys import json from pyspark import SparkContext, SparkConf from pyspark.streaming import StreamingContext from pysp
import sys
import json
from pyspark import SparkContext, SparkConf
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
if __name__ == '__main__':
conf = SparkConf().setAppName("PythonStreamingDirectKafka").setMaster("spark://spark-master:7077")
sc = SparkContext(conf=conf)
sc.setLogLevel("ERROR")
ssc = StreamingContext(sc, 20)
brokers, topic = sys.argv[1:]
kvs = KafkaUtils.createDirectStream(ssc, [topic], {'metadata.broker.list': brokers})
message = kvs.map(lambda x: x[1])
message.pprint()
# Functions
json_object = message.map(lambda s: eval(s))
temperatures_object = json_object.map(lambda s: s["temperature_value"])
#Aggregations
json_object.pprint()
temperatures_object.pprint()
ssc.start()
ssc.awaitTermination()
数据流的输出
SQLite架构:
你知道如何做到这一点吗?如何使用Pyspark将JSON数据从spark流传输到SQLite对我来说很复杂
我感谢任何事先的帮助 我认为您不能将sqlite用于分布式查询。。。然后,它将写入每个执行器上的各个sqlite文件node@cricket_007谢谢你的回答。你建议用什么来代替?MongoDB或其他任何东西…Mongo、Cassandra、Hbase、mysql、Postgres等任何接受远程连接的东西