Hadoop 用于事务生成的IBM Quest数据生成器参数_Hadoop_Dataset_Generator

Hadoop 用于事务生成的IBM Quest数据生成器参数

hadoop

Hadoop 用于事务生成的IBM Quest数据生成器参数,hadoop,dataset,generator,Hadoop,Dataset,Generator,我需要生成用于关联规则挖掘的合成数据集，以比较我的算法与现有算法的性能。我下载了IBMQuest数据生成器，但不知道如何使用论文中使用的相同参数生成数据集。例如，如何生成T40I10D100K.dat T40I10D1000K.dat、T10I4D100K.dat T25I10D10k.dat数据集？使用发电机时，T、I和D的含义是什么？如何设置这些参数帮助输出以下内容 hduser@master:~$ ./gen lit -help Command Line Options: -ntran

我需要生成用于关联规则挖掘的合成数据集，以比较我的算法与现有算法的性能。我下载了IBMQuest数据生成器，但不知道如何使用论文中使用的相同参数生成数据集。例如，如何生成T40I10D100K.dat T40I10D1000K.dat、T10I4D100K.dat T25I10D10k.dat数据集？使用发电机时，T、I和D的含义是什么？如何设置这些参数

帮助输出以下内容

hduser@master:~$ ./gen lit -help 
Command Line Options:
-ntrans number_of_transactions (in 1000's) (default: 1000)
  -tlen avg_items_per_transaction (default: 10)
  -nitems number_of_different_items (in '000s) (default: 100000)
  -npats number_of_patterns (default: 10000)
  -patlen avg_length_of_maximal_pattern (default: 4)
  -corr correlation_between_patterns (default: 0.25)
  -conf avg_confidence_in_a_rule (default: 0.75)
  -fname <filename> (write to filename.data and filename.pat)
  -ascii (default: False)

  -randseed # (reset seed used generate to x-acts; must be negative)
  -version (to print out version info)

hduser@master：~$/gen lit-帮助
命令行选项：
-ntrans交易的数量（以1000为单位）（默认值：1000）
-每个交易的tlen平均项目数（默认值：10）
-不同项目的nitems编号（单位：000）（默认值：100000）
-NPAT数量\u的\u模式（默认值：10000）
-最大模式的patlen平均长度（默认值：4）
-模式之间的相关性（默认值：0.25）
-conf avg_confidence_in_a_rule（默认值：0.75）
-fname（写入filename.data和filename.pat）
-ascii（默认值：False）
-randseed#（重置用于生成x-acts的种子；必须为负数）
-版本（用于打印版本信息）

您可以在此处获得IBM generator：

下面是对这些字母的解释：

D：数据集中的序列数 C：每个序列的平均项目集数 T：每个项目集的平均项目数 S：潜在频繁序列中项目集的平均数。 I：潜在频繁序列中项目集的平均大小

N：数据集中不同项目的数量

您可以在此处获得IBM generator：

下面是对这些字母的解释：

D：数据集中的序列数 C：每个序列的平均项目集数 T：每个项目集的平均项目数 S：潜在频繁序列中项目集的平均数。 I：潜在频繁序列中项目集的平均大小 N：数据集中不同项目的数量