Ubuntu 解析维基百科转储(.xml文件)

Ubuntu 解析维基百科转储(.xml文件),ubuntu,wikipedia,Ubuntu,Wikipedia,我正在使用Ubuntu 13.04。 我下载了英文维基百科。.xml.bz2文件大约为9Gb。使用命令行工具提取后,我得到了一个大约44Gb大小的.xml文件。我找不到合适的方法来读取xml文件的内容。关于如何继续这样做的任何建议 我试过了。我已经使用本文中所述的方法安装了wikidump。这篇文章提到了我找不到的wikidump.cfg文件。还有,在找到文件后,我如何进一步处理。 我对Linux工作环境比较陌生。非常感谢您的帮助。很少有系统能够读取一个大文件大小的文件。你需要一台至少有44GB

我正在使用Ubuntu 13.04。 我下载了英文维基百科。
.xml.bz2
文件大约为9Gb。使用命令行工具提取后,我得到了一个大约44Gb大小的.xml文件。我找不到合适的方法来读取xml文件的内容。关于如何继续这样做的任何建议

我试过了。我已经使用本文中所述的方法安装了wikidump。这篇文章提到了我找不到的
wikidump.cfg
文件。还有,在找到文件后,我如何进一步处理。
我对Linux工作环境比较陌生。非常感谢您的帮助。

很少有系统能够读取一个大文件大小的文件。你需要一台至少有44GB内存的功能强大的机器。您应该尝试将文件分割成更小的块,然后才能读取它

split -b 1440k my_big_file

这就是你能做到的

目标是什么?为什么下载完整的转储文件?