Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/jquery-ui/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 分类数据的人工数据集生成器_R_Dataset_Evaluation_Data Generation - Fatal编程技术网

R 分类数据的人工数据集生成器

R 分类数据的人工数据集生成器,r,dataset,evaluation,data-generation,R,Dataset,Evaluation,Data Generation,我正在评估一个算法,并希望使用人工数据 对于一维人工数据集,该算法运行良好,如中所示 我想测试具有多个维度和某些特征(例如噪声、相关性)的数据集的算法。是否有人已经在R中实现了“人工数据集生成器” 如有任何反馈,将不胜感激。谢谢 R中的mlbench是一组函数,用于生成不同维度和结构的数据,以进行基准测试。它包括回归和分类数据集 当然,这些数据集都是相当人工的,因此它们可能不会真正反映“现实生活”中的性能,因为它们可能不会反映出算法的预期结构。但这至少是一个起点。您可以使用这个包生成随机数据集

我正在评估一个算法,并希望使用人工数据

对于一维人工数据集,该算法运行良好,如中所示

我想测试具有多个维度和某些特征(例如噪声、相关性)的数据集的算法。是否有人已经在R中实现了“人工数据集生成器”


如有任何反馈,将不胜感激。谢谢

R中的mlbench是一组函数,用于生成不同维度和结构的数据,以进行基准测试。它包括回归和分类数据集

当然,这些数据集都是相当人工的,因此它们可能不会真正反映“现实生活”中的性能,因为它们可能不会反映出算法的预期结构。但这至少是一个起点。

您可以使用这个包生成随机数据集

它允许轻松创建数据帧、时间序列、调整相关性,甚至可视化生成的数据,例如:

if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh("trinker/wakefield")
pacman::p_load(dplyr, tidyr, ggplot2)

set.seed(10)

r_data_frame(n=100,
    id,
    dob,
    animal,
    grade, grade,
    death,
    dummy,
    grade_letter,
    gender,
    paragraph,
    sentence
) %>%
   r_na() %>%
   plot(palette = "Set1")

您可以创建具有任意属性的人工数据集。如果你对你想要的属性更具体一些,你会得到更好的答案。你的意思是像
MASS::mvnorm
?@Roman谢谢,我想这将是一个开始。@Richie说得好。也许我应该先在“StatExchange”下问这个问题来澄清这一点。我希望有些人也遇到过类似的问题…谢谢。这似乎是一组数据集(我以前使用过UCI)。我对生成器更感兴趣,这样我就可以看到在什么条件下(数据集属性),算法的性能开始崩溃。人工数据集还允许我使用“真相”(公式)未知的现有数据集测量不可能的校准(IMHO)。谢谢。@csetzkorn仔细看看。mlbench包含带有参数的生成器函数,这些参数可以控制sd、长方体中心等。现在,正如我所说的,不太可能有其他人神奇地创建了一个函数,以您希望的方式生成人工数据集。如果这是你想要的,你必须自己编写代码。对不起,我没有看到发电机。谢谢,如果没有生成该图片的实际代码,该图片将毫无帮助。我建议您添加相关信息,否则这将成为非常低质量的答案。但这意味着从作者手册中复制代码。