使用R比较好数据集和坏数据集

使用R比较好数据集和坏数据集,r,dataset,comparison,R,Dataset,Comparison,陷入困境。有两个数据集A和B。假设它们是两个工厂的数据集。工厂A的表现非常好,而工厂B则不是。我有工厂A的数据集(从制造单位输出的数据)和工厂B的数据集,两者都有相同的变量。我如何识别Factory B中有问题的变量,该变量需要修复,以便Factory B也开始表现良好?因此,我需要确定需要立即关注的问题变量 期待您的回复 p、 s:使用的编码语言是R这是我帮助编写的软件包的无耻插件,它能满足您的要求。dataMaid包的思想是对数据帧中的变量运行一系列测试,并生成一份报告,供人类研究人员(最好

陷入困境。有两个数据集A和B。假设它们是两个工厂的数据集。工厂A的表现非常好,而工厂B则不是。我有工厂A的数据集(从制造单位输出的数据)和工厂B的数据集,两者都有相同的变量。我如何识别Factory B中有问题的变量,该变量需要修复,以便Factory B也开始表现良好?因此,我需要确定需要立即关注的问题变量

期待您的回复


p、 s:使用的编码语言是R

这是我帮助编写的软件包的无耻插件,它能满足您的要求。
dataMaid
包的思想是对数据帧中的变量运行一系列测试,并生成一份报告,供人类研究人员(最好是了解上下文的人)查看,以确定潜在问题

一个超级简单的入门方法是加载包并使用
clean
在数据帧上执行功能(如果您尝试清理相同的数据 帧多次,然后可能需要添加
replace=TRUE
参数以覆盖现有报告)

这将创建一个报告,其中包含每个报告的摘要和错误检查
数据框中的变量。提供了所有变量的摘要,对于
数据,如下所示

而来自每个变量的信息可能如下所示

在这里,我们得到了变量类型、汇总统计、一个图的状态,在本例中,还有一个可能存在异常值问题的指标

dataMaid
包还可以通过检查数据集中的单个变量或所有变量来交互使用

data(toyData)
check(toyData$var2)  # Individual check of var2
check(toyData)       # Check all variables at once
默认情况下,标准测试电池的运行取决于 变量类型,但可以通过提供自己的检查来扩展包


在您的情况下,我将在两个数据集上运行该包以获得两个报告,这些数据集中的任何重大差异都会引起一个问题的标志。

谢谢您的回答。我已经试过了,但它不能满足我的要求。因为我正在为业务用户制作一个用于比较数据集的用户界面,所以我需要向他们显示一个简单的输出,告诉他们“变量X有问题,请纠正它”整个处理将在后端完成,不会向用户显示。此输出的PDF非常有用,但仅适用于像我们这样的数据科学家/分析师,他们可以阅读文档并推断出错误。不过,感谢您的帮助。再次感谢。我以前不知道这个图书馆。如果您有任何其他建议,请告诉我。您可以使用软件包提供的信息制作您自己的列表-无需将结果呈现到标准输出文件中。查看
检查
功能。
data(toyData)
check(toyData$var2)  # Individual check of var2
check(toyData)       # Check all variables at once