Java 如何产生大量的数据？_Java_Hadoop_Nutch_Bigdata

Java 如何产生大量的数据？

java hadoop

Java 如何产生大量的数据？,java,hadoop,nutch,bigdata,Java,Hadoop,Nutch,Bigdata,我正在用nutch和hadoop做一些测试，我需要大量的数据。我希望从20GB开始，到100GB、500GB，最终达到1-2TB 问题是我没有这么多的数据，所以我在想办法生成它数据本身可以是任何类型的。一个想法是获取一组初始数据并复制它。但这还不够好，因为需要彼此不同的文件（忽略相同的文件）另一个想法是编写一个程序，用虚拟数据创建文件还有其他想法吗？我会写一个简单的程序来实现。该程序不需要太清晰，因为写入磁盘的速度可能是您的瓶颈。如果您只需要避免精确的重复，您可以尝试两种方法的结合——

我正在用nutch和hadoop做一些测试，我需要大量的数据。我希望从20GB开始，到100GB、500GB，最终达到1-2TB

问题是我没有这么多的数据，所以我在想办法生成它

数据本身可以是任何类型的。一个想法是获取一组初始数据并复制它。但这还不够好，因为需要彼此不同的文件（忽略相同的文件）

另一个想法是编写一个程序，用虚拟数据创建文件

还有其他想法吗？

我会写一个简单的程序来实现。该程序不需要太清晰，因为写入磁盘的速度可能是您的瓶颈。

如果您只需要避免精确的重复，您可以尝试两种方法的结合——创建相对较小数据集的损坏副本。“损坏”操作可能包括：替换、插入、删除和字符交换。

关于长时间的评论：我最近扩展了一个磁盘分区，我很清楚移动或创建大量文件需要多长时间。向操作系统请求磁盘上的一系列可用空间，然后在FAT中为该范围创建一个新条目，而无需写入任何内容（重用以前存在的信息），速度会快得多。这将符合您的目的（因为您不关心文件内容），并且与删除文件一样快

问题是这在Java中可能很难实现。我发现了一个名为的开源库，但由于它不使用本机代码，我认为它在这里没有用处。对于给定的文件系统，并且使用较低级别的语言（如C），如果您有时间和动机，我认为这是可以实现的。

对于statistics StackExchange站点来说，这可能是一个更好的问题（例如，请参阅）

但是，如果您对数据属性不感兴趣，而对操作和处理数据的基础结构不感兴趣，那么您可以忽略统计站点。特别是，如果您不关注数据的统计方面，而只是想要“大数据”，那么我们可以关注如何生成大量数据

我可以提供几个答案：

如果您只是对随机数字数据感兴趣，请从您最喜欢的Mersenne Twister实现生成一个大数据流。还有/dev/random（请参阅）。我更喜欢一个已知的随机数生成器，因为结果可以被其他任何人复制得令人作呕

对于结构化数据，您可以考虑将随机数映射到索引，并创建一个将索引映射到字符串、数字等的表，例如在生成名称、地址等数据库时可能遇到的情况。如果您有足够大的表或足够丰富的映射目标，则可以降低冲突风险（例如，相同的名字），尽管你可能希望有一些碰撞，因为这些碰撞在现实中也会发生

请记住，使用任何生成方法，在开始工作之前都不需要存储整个数据集。只要记录状态（例如RNG），您就可以从停止的地方开始

对于文本数据，您可以查看简单的随机字符串生成器。您可以为不同长度或不同特征的字符串的概率创建自己的估计值。句子、段落、文档等也可以使用相同的估计值。只需确定要模拟的属性，创建一个“空白”对象，并用文本填充它

看一看，它们有不同的数据库基准，带有数据生成器和预定义查询

生成器具有允许定义目标数据大小的比例因子

还有（）专注于分布式“大数据”数据生成。Myriad具有陡峭的学习曲线，因此您可能需要向软件的作者寻求帮助。

从google analitycs查询数据？哇，这样的程序需要很长时间才能运行。您考虑过只生成随机数吗？”（忽略相同的文件）。“从末尾修剪几行（随机数目的）就不会了。为什么要生成？有很多免费的大型数据集：