Java 处理维基百科转储文件

Java 处理维基百科转储文件,java,Java,我想处理维基百科转储文件。换句话说,我想为每篇文章提取标题、类别和文本内容。我想问的是,是否有任何JavaAPI/工具可以帮助我做到这一点。 提前感谢维基百科转储文件是XML格式的。因此,您可以为此使用任何可用的XML工具 请注意,由于转储文件的大小,SAX解析器通常比DOM解析器效率更高(因为DOM解析器将尝试将整个内容加载到内存表示中)。您正在寻找类似的东西吗 该页面提供了如何使用API的示例。请查看 它是一个java api,让您能够结构化地访问wikipedia转储,您需要一个数据库(

我想处理维基百科转储文件。换句话说,我想为每篇文章提取标题、类别和文本内容。我想问的是,是否有任何JavaAPI/工具可以帮助我做到这一点。
提前感谢

维基百科转储文件是XML格式的。因此,您可以为此使用任何可用的XML工具


请注意,由于转储文件的大小,SAX解析器通常比DOM解析器效率更高(因为DOM解析器将尝试将整个内容加载到内存表示中)。

您正在寻找类似的东西吗

该页面提供了如何使用API的示例。

请查看 它是一个java api,让您能够结构化地访问wikipedia转储,您需要一个数据库(mysql或类似的数据库),而对于最近的wikipedia转储,需要大量ram,至少4g才能处理

但使用起来很好: 您可以在所有页面或页面标题上获得一个迭代器,以及更易于使用的内容