Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/385.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
访问维基百科数据的最佳Java API_Java_Nlp_Mediawiki_Wikipedia_Wikipedia Api - Fatal编程技术网

访问维基百科数据的最佳Java API

访问维基百科数据的最佳Java API,java,nlp,mediawiki,wikipedia,wikipedia-api,Java,Nlp,Mediawiki,Wikipedia,Wikipedia Api,我想以优化的方式访问一些基于研究的NLP任务的Wikipedia数据。我的重点是寻找一些Java API。我见过很多Java API,例如JWPL、gwtwiki、wikixmlj、Bliki引擎、Wiki.Java、 我不太清楚应该使用哪种API。我的要求是找到以下关于维基百科实体的信息 修订历史资料 文章全文和文章元数据 作者信息 外部链接+内部链接 谈话页 统计数据 用户反馈 我已经看过上面提到的Java项目主页上的示例。但我不确定我是否从单个API获得了所有信息。请一些有处理维基百科数据

我想以优化的方式访问一些基于研究的NLP任务的Wikipedia数据。我的重点是寻找一些Java API。我见过很多Java API,例如JWPL、gwtwiki、wikixmlj、Bliki引擎、Wiki.Java、

我不太清楚应该使用哪种API。我的要求是找到以下关于维基百科实体的信息

  • 修订历史资料
  • 文章全文和文章元数据
  • 作者信息
  • 外部链接+内部链接
  • 谈话页
  • 统计数据
  • 用户反馈

  • 我已经看过上面提到的Java项目主页上的示例。但我不确定我是否从单个API获得了所有信息。请一些有处理维基百科数据经验的人帮助我,这样我才能做出更好的决定。

    对于获取全文及其链接来说,这很好。我没有在其他情况下使用它,因此无法对此发表评论。

    我建议您查看基于JWPL-Java的维基百科库。

    它对修订有很好的支持,在我看来,它是(很容易)最活跃的java wikipedia库


    与JWBF(bot框架)不同,它更多地用于分析,不允许创建bot和写入wikipedia,但这些限制对您来说不是问题。

    您需要处理一些特定文章还是大部分内容?在后一种情况下,您应该下载特定的,其中包含您列出的数据,除了用户反馈。在以后的阶段,我可能需要很多文章,但在最初的阶段,我需要用很少的文章来测试它。获取Wikipedia转储文件是一项非常耗时的任务,因此目前我需要一家处理少量文章但完整信息的初创公司,我已经投入了很多时间来搜索一个好的API。我真的怀疑“最活跃的java Wikipedia库”。。我在他们的邮件列表上有很糟糕的经历……那太糟糕了——它似乎满足了你的要求。你找到更好的了吗?