elasticsearch,apache-spark,cassandra,logstash,Java,elasticsearch,Apache Spark,Cassandra,Logstash" /> elasticsearch,apache-spark,cassandra,logstash,Java,elasticsearch,Apache Spark,Cassandra,Logstash" />

Java 将WARC文件转换为JSON、XML或CSV

Java 将WARC文件转换为JSON、XML或CSV,java,elasticsearch,apache-spark,cassandra,logstash,Java,elasticsearch,Apache Spark,Cassandra,Logstash,我正在处理WARC文件,并试图将完整的文件访问到某种框架可接受的格式(比如elasticsearch、ApacheSparks或其他格式)。但这些框架接受JSON格式或WARC以外的其他类型的数据。 出于这个原因,我尝试使用Github程序作为文件的解析器。这是Github存储库代码链接: 现在,当我尝试实现它时,这个程序根本不起作用。我不知道出了什么问题,但什么也没发现。不是错误或输出。 现在我在想我怎样才能完成我的任务?如果有人对此有任何建议,请与我分享。Logstash可以使用直接字符串,

我正在处理WARC文件,并试图将完整的文件访问到某种框架可接受的格式(比如elasticsearch、ApacheSparks或其他格式)。但这些框架接受JSON格式或WARC以外的其他类型的数据。
出于这个原因,我尝试使用Github程序作为文件的解析器。这是Github存储库代码链接:
现在,当我尝试实现它时,这个程序根本不起作用。我不知道出了什么问题,但什么也没发现。不是错误或输出。

现在我在想我怎样才能完成我的任务?如果有人对此有任何建议,请与我分享。

Logstash可以使用直接字符串,不确定您为什么认为需要转换@cricket_007(如果可能的话)@cricket_007实际上,我尝试使用Logstash输入warc文件,它接受输入并提供非常非结构化的输出,或者您可以说我期望的输出不是我得到的。输出必须类似于如果文件具有WARC目标URl:那么我应该得到的输出必须是“WARC目标URl”:“”和类似的结果。你一定知道这需要一行一行。。我想要一套完整的网站数据等等…如果你能显示
logstash的
input
?@Kulasangar Yes。。请看我前面的一个问题给出了输入的格式:@JafferWilson如果在
logstash
中的
input
中使用
type=>“json”
该怎么办?logstash可以使用直接字符串,不确定您为什么认为需要转换(如果可能)@cricket\u 007实际上,我试图使用logstash输入warc文件,它接受输入并提供非常无结构的输出,或者你可以说我期望的输出不是我得到的。输出必须类似于如果文件具有WARC目标URl:那么我应该得到的输出必须是“WARC目标URl”:“”和类似的结果。你一定知道这需要一行一行。。我想要一套完整的网站数据等等…如果你能显示
logstash的
input
?@Kulasangar Yes。。请参阅我前面的一个问题,其中给出了输入格式:@JafferWilson如果在
logstash中的
输入中使用
type=>“json”
,该怎么办?