Java 解析Wikipedia的实时数据流

Java 解析Wikipedia的实时数据流,java,parsing,real-time,influxdb,wikipedia-api,Java,Parsing,Real Time,Influxdb,Wikipedia Api,我想 取回 解析某些内容并 在维基百科提供的关于最近变化的实时数据流上写入数据库: 我研究并考虑了Jsoup,但是,Jsoup似乎无法处理实时流。我将如何在Java中实现这一点 最终,我的目标是在流继续流动的同时,只解析并将我需要的内容放入influxDB数据库。打开HTTPS连接,将连接的输入流包装在UTF-8解码java.io.BufferedReader中,并在循环中逐行读取输入。然后根据它们各自的内容解析这些行。id和data行似乎在前缀后面包含JSON,因此您可以使用您选择的JSON库

我想

  • 取回
  • 解析某些内容并
  • 在维基百科提供的关于最近变化的实时数据流上写入数据库:
  • 我研究并考虑了Jsoup,但是,Jsoup似乎无法处理实时流。我将如何在Java中实现这一点


    最终,我的目标是在流继续流动的同时,只解析并将我需要的内容放入influxDB数据库。

    打开HTTPS连接,将连接的输入流包装在UTF-8解码
    java.io.BufferedReader
    中,并在循环中逐行读取输入。然后根据它们各自的内容解析这些行。
    id
    data
    行似乎在前缀后面包含JSON,因此您可以使用您选择的JSON库。 然后将过滤后的数据写入数据库

    这是一个仅使用JDK的简化示例:

    URLConnection conn = new URL
        ("https://stream.wikimedia.org/v2/stream/recentchange").openConnection();
    
    BufferedReader reader = new BufferedReader
        (new InputStreamReader(conn.getInputStream(), StandardCharsets.UTF_8));
    
    String line;
    
    while ((line = reader.readLine()) != null) {
        // 1. parse interesting lines according to
        //    their prefix event, id, or data
        // 2. write filtered data to the database
    }