Java 如何产生大量的数据?
我正在用nutch和hadoop做一些测试,我需要大量的数据。 我希望从20GB开始,到100GB、500GB,最终达到1-2TB 问题是我没有这么多的数据,所以我在想办法生成它 数据本身可以是任何类型的。 一个想法是获取一组初始数据并复制它。但这还不够好,因为需要彼此不同的文件(忽略相同的文件) 另一个想法是编写一个程序,用虚拟数据创建文件Java 如何产生大量的数据?,java,hadoop,nutch,bigdata,Java,Hadoop,Nutch,Bigdata,我正在用nutch和hadoop做一些测试,我需要大量的数据。 我希望从20GB开始,到100GB、500GB,最终达到1-2TB 问题是我没有这么多的数据,所以我在想办法生成它 数据本身可以是任何类型的。 一个想法是获取一组初始数据并复制它。但这还不够好,因为需要彼此不同的文件(忽略相同的文件) 另一个想法是编写一个程序,用虚拟数据创建文件 还有其他想法吗?我会写一个简单的程序来实现。该程序不需要太清晰,因为写入磁盘的速度可能是您的瓶颈。如果您只需要避免精确的重复,您可以尝试两种方法的结合——
还有其他想法吗?我会写一个简单的程序来实现。该程序不需要太清晰,因为写入磁盘的速度可能是您的瓶颈。如果您只需要避免精确的重复,您可以尝试两种方法的结合——创建相对较小数据集的损坏副本。“损坏”操作可能包括:替换、插入、删除和字符交换。关于长时间的评论:我最近扩展了一个磁盘分区,我很清楚移动或创建大量文件需要多长时间。向操作系统请求磁盘上的一系列可用空间,然后在FAT中为该范围创建一个新条目,而无需写入任何内容(重用以前存在的信息),速度会快得多。这将符合您的目的(因为您不关心文件内容),并且与删除文件一样快
问题是这在Java中可能很难实现。我发现了一个名为的开源库,但由于它不使用本机代码,我认为它在这里没有用处。对于给定的文件系统,并且使用较低级别的语言(如C),如果您有时间和动机,我认为这是可以实现的。对于statistics StackExchange站点来说,这可能是一个更好的问题(例如,请参阅) 但是,如果您对数据属性不感兴趣,而对操作和处理数据的基础结构不感兴趣,那么您可以忽略统计站点。特别是,如果您不关注数据的统计方面,而只是想要“大数据”,那么我们可以关注如何生成大量数据 我可以提供几个答案:
还有()专注于分布式“大数据”数据生成。Myriad具有陡峭的学习曲线,因此您可能需要向软件的作者寻求帮助。从google analitycs查询数据?哇,这样的程序需要很长时间才能运行。您考虑过只生成随机数吗?”(忽略相同的文件)。“从末尾修剪几行(随机数目的)就不会了。为什么要生成?有很多免费的大型数据集: