Java 从WARC文件导入数据(WebArchive)

Java 从WARC文件导入数据(WebArchive),java,import,neo4j,Java,Import,Neo4j,我正在处理一个不太正常的用例,其中数据存在于WARC文件中。 [ 我想把数据导入Neo4j 我能想到的一个解决方案是解析WARC文件(一些要读取的java代码),然后将结构化数据写入CSV,这样就可以使用一些导入工具加载它 提取到CSV是将数据加载到Neo4j的唯一选项吗 你能给我一些关于如何实现这个用例的建议吗 谢谢 这要看情况而定 这取决于您希望从Web存档加载什么数据。如果您正在谈论加载元数据…那么您不需要中间步骤,处理文件并将数据直接插入数据库。您可以使用存储过程来实现这一点(apo

我正在处理一个不太正常的用例,其中数据存在于WARC文件中。 [ 我想把数据导入Neo4j

我能想到的一个解决方案是解析WARC文件(一些要读取的java代码),然后将结构化数据写入CSV,这样就可以使用一些导入工具加载它

提取到CSV是将数据加载到Neo4j的唯一选项吗

你能给我一些关于如何实现这个用例的建议吗


谢谢
这要看情况而定

这取决于您希望从Web存档加载什么数据。如果您正在谈论加载元数据…那么您不需要中间步骤,处理文件并将数据直接插入数据库。您可以使用存储过程来实现这一点(apoc库中充满了类似的内容)或使用您喜爱的语言+驱动程序的小型服务器应用程序

如果您谈论的是Web归档中的内容,则情况就不同了。Neo4j不是blob/文档存储,因此您必须提取和解释归档文件。在间接过程中,这可能更有效

希望这有帮助, 汤姆


顺便说一句,csv不是唯一可以加载的格式。有加载xml、json等的过程。

我想我要找的是第二个选项-“提取和解释”。我想提取数据超出了neo4j的范围。因为我在这个问题中也使用了java标记,所以我想在这方面寻求一些指导。我想我想要的是“如何从非结构化内容创建结构”,我希望某种配置表明我希望从给定的文档中提取字段1、字段2。提取方法在某些地方定义。如果有人能指出有用的资源,任何最佳实践。那就太好了。