Apache spark Spark流作业的行为类似于批处理

Apache spark Spark流作业的行为类似于批处理,apache-spark,apache-kafka,spark-streaming,Apache Spark,Apache Kafka,Spark Streaming,我正在尝试运行Spark流媒体作业来读取卡夫卡的消息。为了进行测试,我在Kafka中插入了几GB的消息,然后启动流作业(python) 我希望这份工作每秒都能更新我收到的信息(流媒体)。但是,作业会统计队列中的所有消息(无论需要多长时间),只有在统计完所有消息后,我才会看到更新(批处理) 请问,谁能告诉我我错过了什么 更新: 我期待看到的是: ------------------------------------------- Time: 2016-01-28 16:23:42 -------

我正在尝试运行Spark流媒体作业来读取卡夫卡的消息。为了进行测试,我在Kafka中插入了几GB的消息,然后启动流作业(python)

我希望这份工作每秒都能更新我收到的信息(流媒体)。但是,作业会统计队列中的所有消息(无论需要多长时间),只有在统计完所有消息后,我才会看到更新(批处理)

请问,谁能告诉我我错过了什么

更新: 我期待看到的是:

-------------------------------------------
Time: 2016-01-28 16:23:42
-------------------------------------------
1000000

-------------------------------------------
Time: 2016-01-28 16:23:43
-------------------------------------------
10000000
我看到的是:

16/01/28 16:25:10 INFO JobScheduler: Added jobs for time 1453994710000 ms
16/01/28 16:25:11 INFO JobScheduler: Added jobs for time 1453994711000 ms
16/01/28 16:25:12 INFO JobScheduler: Added jobs for time 1453994712000 ms
16/01/28 16:25:13 INFO JobScheduler: Added jobs for time 1453994713000 ms
16/01/28 16:25:14 INFO JobScheduler: Added jobs for time 1453994714000 ms
16/01/28 16:25:15 INFO JobScheduler: Added jobs for time 1453994715000 ms
16/01/28 16:25:16 INFO JobScheduler: Added jobs for time 1453994716000 ms
...

您是如何提交工作的?您在哪里看到这些日志的?spark submit--jars spark-streaming-kafka-assembly_2.10-1.5.2.jar./spark_streaming_kafka.py。我在STDOUT上看到了那些日志,你在Spark-UI中看到了什么
16/01/28 16:25:10 INFO JobScheduler: Added jobs for time 1453994710000 ms
16/01/28 16:25:11 INFO JobScheduler: Added jobs for time 1453994711000 ms
16/01/28 16:25:12 INFO JobScheduler: Added jobs for time 1453994712000 ms
16/01/28 16:25:13 INFO JobScheduler: Added jobs for time 1453994713000 ms
16/01/28 16:25:14 INFO JobScheduler: Added jobs for time 1453994714000 ms
16/01/28 16:25:15 INFO JobScheduler: Added jobs for time 1453994715000 ms
16/01/28 16:25:16 INFO JobScheduler: Added jobs for time 1453994716000 ms
...