Hadoop 用于事务生成的IBM Quest数据生成器参数
我需要生成用于关联规则挖掘的合成数据集,以比较我的算法与现有算法的性能。我下载了IBMQuest数据生成器,但不知道如何使用论文中使用的相同参数生成数据集。例如,如何生成T40I10D100K.dat T40I10D1000K.dat、T10I4D100K.dat T25I10D10k.dat数据集?使用发电机时,T、I和D的含义是什么?如何设置这些参数 帮助输出以下内容Hadoop 用于事务生成的IBM Quest数据生成器参数,hadoop,dataset,generator,Hadoop,Dataset,Generator,我需要生成用于关联规则挖掘的合成数据集,以比较我的算法与现有算法的性能。我下载了IBMQuest数据生成器,但不知道如何使用论文中使用的相同参数生成数据集。例如,如何生成T40I10D100K.dat T40I10D1000K.dat、T10I4D100K.dat T25I10D10k.dat数据集?使用发电机时,T、I和D的含义是什么?如何设置这些参数 帮助输出以下内容 hduser@master:~$ ./gen lit -help Command Line Options: -ntran
hduser@master:~$ ./gen lit -help
Command Line Options:
-ntrans number_of_transactions (in 1000's) (default: 1000)
-tlen avg_items_per_transaction (default: 10)
-nitems number_of_different_items (in '000s) (default: 100000)
-npats number_of_patterns (default: 10000)
-patlen avg_length_of_maximal_pattern (default: 4)
-corr correlation_between_patterns (default: 0.25)
-conf avg_confidence_in_a_rule (default: 0.75)
-fname <filename> (write to filename.data and filename.pat)
-ascii (default: False)
-randseed # (reset seed used generate to x-acts; must be negative)
-version (to print out version info)
hduser@master:~$/gen lit-帮助
命令行选项:
-ntrans交易的数量(以1000为单位)(默认值:1000)
-每个交易的tlen平均项目数(默认值:10)
-不同项目的nitems编号(单位:000)(默认值:100000)
-NPAT数量\u的\u模式(默认值:10000)
-最大模式的patlen平均长度(默认值:4)
-模式之间的相关性(默认值:0.25)
-conf avg_confidence_in_a_rule(默认值:0.75)
-fname(写入filename.data和filename.pat)
-ascii(默认值:False)
-randseed#(重置用于生成x-acts的种子;必须为负数)
-版本(用于打印版本信息)
您可以在此处获得IBM generator:
下面是对这些字母的解释:
D:数据集中的序列数
C:每个序列的平均项目集数
T:每个项目集的平均项目数
S:潜在频繁序列中项目集的平均数。
I:潜在频繁序列中项目集的平均大小
N:数据集中不同项目的数量您可以在此处获得IBM generator: 下面是对这些字母的解释: D:数据集中的序列数 C:每个序列的平均项目集数 T:每个项目集的平均项目数 S:潜在频繁序列中项目集的平均数。 I:潜在频繁序列中项目集的平均大小 N:数据集中不同项目的数量