Apache spark 如何使用Spark streaming进行实时日志分析??(附建筑图)

Apache spark 如何使用Spark streaming进行实时日志分析??(附建筑图),apache-spark,pyspark,spark-streaming,Apache Spark,Pyspark,Spark Streaming,Spark streaming应用程序从许多物联网设备实时接收数据。 但它们都是少量的数据。 整体流程看起来像it->Iot->Kafka(1个主题/所有数据)->Spark streaming(过滤错误日志)->DB(保存)->警报屏幕 有没有一种使用spark或python进行实时日志分析的好方法 显然,您可以使用spark-Kafka连接器从Kafka队列流式传输数据 本文档对卡夫卡结构化流媒体有一些参考- 从kafka获得流数据帧后,可以应用spark的filter()函数来过滤传入的数

Spark streaming应用程序从许多物联网设备实时接收数据。 但它们都是少量的数据。 整体流程看起来像it->Iot->Kafka(1个主题/所有数据)->Spark streaming(过滤错误日志)->DB(保存)->警报屏幕

有没有一种使用spark或python进行实时日志分析的好方法


显然,您可以使用spark-Kafka连接器从Kafka队列流式传输数据

本文档对卡夫卡结构化流媒体有一些参考-

从kafka获得流数据帧后,可以应用spark的filter()函数来过滤传入的数据集

此外,来自databricks的这篇文档对于如何使用spark streaming实现日志分析应用程序也有一些很好的参考


您可以使用以上作为参考

谢谢你,这个答案澄清了你的问题吗?@KIMJAEMIN-如果它回答了你的问题-你能接受它作为答案吗?我愿意~:)谢谢兄弟。你能告诉我更多的“gitbooks网站”(?)吗?如果你知道spark Study的其他“gitbooks”,你可以参考下面的链接,它有一些spark应用程序的参考资料-