Java 解析Wikipedia的实时数据流
我想Java 解析Wikipedia的实时数据流,java,parsing,real-time,influxdb,wikipedia-api,Java,Parsing,Real Time,Influxdb,Wikipedia Api,我想 取回 解析某些内容并 在维基百科提供的关于最近变化的实时数据流上写入数据库: 我研究并考虑了Jsoup,但是,Jsoup似乎无法处理实时流。我将如何在Java中实现这一点 最终,我的目标是在流继续流动的同时,只解析并将我需要的内容放入influxDB数据库。打开HTTPS连接,将连接的输入流包装在UTF-8解码java.io.BufferedReader中,并在循环中逐行读取输入。然后根据它们各自的内容解析这些行。id和data行似乎在前缀后面包含JSON,因此您可以使用您选择的JSON库
最终,我的目标是在流继续流动的同时,只解析并将我需要的内容放入influxDB数据库。打开HTTPS连接,将连接的输入流包装在UTF-8解码
java.io.BufferedReader
中,并在循环中逐行读取输入。然后根据它们各自的内容解析这些行。id
和data
行似乎在前缀后面包含JSON,因此您可以使用您选择的JSON库。
然后将过滤后的数据写入数据库
这是一个仅使用JDK的简化示例:
URLConnection conn = new URL
("https://stream.wikimedia.org/v2/stream/recentchange").openConnection();
BufferedReader reader = new BufferedReader
(new InputStreamReader(conn.getInputStream(), StandardCharsets.UTF_8));
String line;
while ((line = reader.readLine()) != null) {
// 1. parse interesting lines according to
// their prefix event, id, or data
// 2. write filtered data to the database
}