Java 处理维基百科转储文件_Java

Java 处理维基百科转储文件

java

Java 处理维基百科转储文件,java,Java,我想处理维基百科转储文件。换句话说，我想为每篇文章提取标题、类别和文本内容。我想问的是，是否有任何JavaAPI/工具可以帮助我做到这一点。提前感谢维基百科转储文件是XML格式的。因此，您可以为此使用任何可用的XML工具请注意，由于转储文件的大小，SAX解析器通常比DOM解析器效率更高（因为DOM解析器将尝试将整个内容加载到内存表示中）。您正在寻找类似的东西吗该页面提供了如何使用API的示例。请查看它是一个java api，让您能够结构化地访问wikipedia转储，您需要一个数据库（

我想处理维基百科转储文件。换句话说，我想为每篇文章提取标题、类别和文本内容。我想问的是，是否有任何JavaAPI/工具可以帮助我做到这一点。

提前感谢

维基百科转储文件是XML格式的。因此，您可以为此使用任何可用的XML工具

请注意，由于转储文件的大小，SAX解析器通常比DOM解析器效率更高（因为DOM解析器将尝试将整个内容加载到内存表示中）。

您正在寻找类似的东西吗

该页面提供了如何使用API的示例。

请查看它是一个java api，让您能够结构化地访问wikipedia转储，您需要一个数据库（mysql或类似的数据库），而对于最近的wikipedia转储，需要大量ram，至少4g才能处理

但使用起来很好：您可以在所有页面或页面标题上获得一个迭代器，以及更易于使用的内容