Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/assembly/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Databricks:卡夫卡的Spark结构化流卡在;“流初始化”;_Python_Apache Spark_Streaming_Databricks - Fatal编程技术网

Python Databricks:卡夫卡的Spark结构化流卡在;“流初始化”;

Python Databricks:卡夫卡的Spark结构化流卡在;“流初始化”;,python,apache-spark,streaming,databricks,Python,Apache Spark,Streaming,Databricks,我想用kafka源在databricks中创建一个结构化流。 我按照说明做了。我的脚本似乎启动了,但是我无法在databricks笔记本中打印/输出某些内容。当我使用confluent_kafka时,流itsellf工作良好,并产生结果和工作(在databricks中),因此我似乎遗漏了一个不同的问题: 脚本似乎在“运行命令”/“流初始化”时“卡住” 非常感谢您的任何意见 from pyspark.sql import functions as F from pyspark.sql.types

我想用kafka源在databricks中创建一个结构化流。 我按照说明做了。我的脚本似乎启动了,但是我无法在databricks笔记本中打印/输出某些内容。当我使用
confluent_kafka
时,流itsellf工作良好,并产生结果和工作(在databricks中),因此我似乎遗漏了一个不同的问题:

脚本似乎在“运行命令”/“流初始化”时“卡住”

非常感谢您的任何意见

from pyspark.sql import functions as F
from pyspark.sql.types import *

# Define a data schema
schema = StructType() \
           .add('PARAMETERS_TEXTVALUES_070_VALUES', StringType())\
           .add('ID', StringType())\
           .add('PARAMETERS_TEXTVALUES_001_VALUES', StringType())\
           .add('TIMESTAMP', TimestampType())


df = spark \
    .readStream \
    .format("kafka") \
    .option("host", "stream.xxx.com") \
    .option("port", 12345)\
    .option('kafka.bootstrap.servers', 'stream.xxx.com:12345') \
    .option('subscribe', 'stream_test.json') \
    .option("startingOffset", "earliest") \
    .load()

df_word = df.select(F.col('key').cast('string'),
                    F.from_json(F.col('value').cast('string'), schema).alias("parsed_value"))
  
# Group by id and count
df_group = df_word.select('parsed_value.*')\
                  .groupBy('ID').count()

query = df_group \
    .writeStream \
    .outputMode("complete") \
    .format("console") \
    .start()

query.awaitTermination()
我的流输出数据如下所示:

"PARAMETERS_TEXTVALUES_070_VALUES":'something'
"ID":"47575963333908"
"PARAMETERS_TEXTVALUES_001_VALUES":12345
"TIMESTAMP": "2020-10-22T15:06:42.507+02:00"
澄清一下:我正在尝试将
query
的组件打印到笔记本上,以测试连接。此单元格后面或上面的单元格前面没有单元格


谢谢,请注意安全。

顺便说一句:我知道我的问题有不可复制的代码,但在这种情况下,我觉得无法生成该代码:/您是否尝试在该单元格后在笔记本中打印出一些内容?如果是这样,请删除query.waittermination()hi@JoeWiden-我正在尝试将
query
的输出打印到笔记本上。我正在尝试在该单元格中执行此操作,但该单元格后面没有任何内容,因此我删除了
query.waittermination()
,它没有更改任何内容。您显示的id(df_组)并删除该查询=,这能实现你想要的吗?