Database 一个大规模的、经过修改的网页存档

Database 一个大规模的、经过修改的网页存档,database,full-text-search,archive,large-files,Database,Full Text Search,Archive,Large Files,我想测试我的基于html的搜索引擎,我想要一组相对较大的修改过的文档。是否有一个档案,我可以下载它,并把它放在我的系统?我读过关于维基百科转储的文章,但我不确定它们是如何格式化的。Intenet Archive的Wayback机器很好,但服务器速度很慢。我正在寻找一个档案: 它很大,但不是很大。大约1000个文档,每个文档有1000个修订版,可以满足我的项目。我不是在找5 TB的DB 修正了。一个静态的、单一版本的归档是不够的 我正在寻找的文件,要么是HTML或可以很容易地转换为HTML

我想测试我的基于html的搜索引擎,我想要一组相对较大的修改过的文档。是否有一个档案,我可以下载它,并把它放在我的系统?我读过关于维基百科转储的文章,但我不确定它们是如何格式化的。Intenet Archive的Wayback机器很好,但服务器速度很慢。我正在寻找一个档案:

  • 它很大,但不是很大。大约1000个文档,每个文档有1000个修订版,可以满足我的项目。我不是在找5 TB的DB
  • 修正了。一个静态的、单一版本的归档是不够的
  • 我正在寻找的文件,要么是HTML或可以很容易地转换为HTML