Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/file/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 用于事务生成的IBM Quest数据生成器参数_Hadoop_Dataset_Generator - Fatal编程技术网

Hadoop 用于事务生成的IBM Quest数据生成器参数

Hadoop 用于事务生成的IBM Quest数据生成器参数,hadoop,dataset,generator,Hadoop,Dataset,Generator,我需要生成用于关联规则挖掘的合成数据集,以比较我的算法与现有算法的性能。我下载了IBMQuest数据生成器,但不知道如何使用论文中使用的相同参数生成数据集。例如,如何生成T40I10D100K.dat T40I10D1000K.dat、T10I4D100K.dat T25I10D10k.dat数据集?使用发电机时,T、I和D的含义是什么?如何设置这些参数 帮助输出以下内容 hduser@master:~$ ./gen lit -help Command Line Options: -ntran

我需要生成用于关联规则挖掘的合成数据集,以比较我的算法与现有算法的性能。我下载了IBMQuest数据生成器,但不知道如何使用论文中使用的相同参数生成数据集。例如,如何生成T40I10D100K.dat T40I10D1000K.dat、T10I4D100K.dat T25I10D10k.dat数据集?使用发电机时,T、I和D的含义是什么?如何设置这些参数

帮助输出以下内容

hduser@master:~$ ./gen lit -help 
Command Line Options:
-ntrans number_of_transactions (in 1000's) (default: 1000)
  -tlen avg_items_per_transaction (default: 10)
  -nitems number_of_different_items (in '000s) (default: 100000)
  -npats number_of_patterns (default: 10000)
  -patlen avg_length_of_maximal_pattern (default: 4)
  -corr correlation_between_patterns (default: 0.25)
  -conf avg_confidence_in_a_rule (default: 0.75)
  -fname <filename> (write to filename.data and filename.pat)
  -ascii (default: False)

  -randseed # (reset seed used generate to x-acts; must be negative)
  -version (to print out version info)
hduser@master:~$/gen lit-帮助
命令行选项:
-ntrans交易的数量(以1000为单位)(默认值:1000)
-每个交易的tlen平均项目数(默认值:10)
-不同项目的nitems编号(单位:000)(默认值:100000)
-NPAT数量\u的\u模式(默认值:10000)
-最大模式的patlen平均长度(默认值:4)
-模式之间的相关性(默认值:0.25)
-conf avg_confidence_in_a_rule(默认值:0.75)
-fname(写入filename.data和filename.pat)
-ascii(默认值:False)
-randseed#(重置用于生成x-acts的种子;必须为负数)
-版本(用于打印版本信息)

您可以在此处获得IBM generator:

下面是对这些字母的解释:

D:数据集中的序列数 C:每个序列的平均项目集数 T:每个项目集的平均项目数 S:潜在频繁序列中项目集的平均数。 I:潜在频繁序列中项目集的平均大小
N:数据集中不同项目的数量

您可以在此处获得IBM generator:

下面是对这些字母的解释:

D:数据集中的序列数 C:每个序列的平均项目集数 T:每个项目集的平均项目数 S:潜在频繁序列中项目集的平均数。 I:潜在频繁序列中项目集的平均大小 N:数据集中不同项目的数量