elasticsearch,Java,Python,Xml,elasticsearch" /> elasticsearch,Java,Python,Xml,elasticsearch" />

Java 有效地将XML引入Elasticsearch

Java 有效地将XML引入Elasticsearch,java,python,xml,elasticsearch,Java,Python,Xml,elasticsearch,目前,我正在使用scrapy将ftp服务器上的一个大型XML文件解析为elasticsearch。它可以工作,但似乎是一个相当重的解决方案,它使用了大量的内存太多 我想知道我是否应该为ES编写一个插件。我知道logstash可以做到,但我不能用它来做内联语言检测等 A) 如果我为ES编写一个实际的插件,我认为它必须是Java的,才能获取数据。这种方法有什么优势吗?或者我可以编写一个单独的Python脚本来将数据推入。有没有明确的理由选择一种方法而不是另一种(假设我不懂Java或Python) 这

目前,我正在使用scrapy将ftp服务器上的一个大型XML文件解析为elasticsearch。它可以工作,但似乎是一个相当重的解决方案,它使用了大量的内存太多

我想知道我是否应该为ES编写一个插件。我知道logstash可以做到,但我不能用它来做内联语言检测等

A) 如果我为ES编写一个实际的插件,我认为它必须是Java的,才能获取数据。这种方法有什么优势吗?或者我可以编写一个单独的Python脚本来将数据推入。有没有明确的理由选择一种方法而不是另一种(假设我不懂Java或Python)

这归结为:

  • 使用真正的ES插件,内存管理会更好吗
  • Java比Python更适合处理XML吗

将XML转换为JSON相当于理解XML中的实际数据,因为转换为JSON并不容易,通常需要额外的逻辑。因此,没有防错的XML>JSON转换器

如果您决定使用python来实现这一点,请查看,然后。JSON支持在python的stdlib中本机提供

如果你决定从ES方面试试运气,看看。在XML一致的情况下,它可能适合您的需要

谈论
python
vs
java
performance for parsing-如果性能对您来说是一个关键,那么您可以利用一些库,这些库已经在低级别上进行了优化,但一般来说,好的java代码应该性能更好