Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/sql/85.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Sql 自动检查数字集关联_Sql_Dataset_Analysis_Discrete Mathematics_Set Theory - Fatal编程技术网

Sql 自动检查数字集关联

Sql 自动检查数字集关联,sql,dataset,analysis,discrete-mathematics,set-theory,Sql,Dataset,Analysis,Discrete Mathematics,Set Theory,抱歉,如果标题错误或令人困惑 我正在处理两个源文件(想想转换为excel或加载到单独oracle表中的csv文件)。这两个文件中的数据是从业务角度关联的 文件1包含一组行和列。例如: card_type, amount VISA, 100 MASTERCARD, 300 DISCOVER, 200 AMEX, 150 DEBIT, 400 文件2包含simliar数据,但以未知方式聚合: deposit_id, deposit_date, amount 1, 03/01/2015, 400 2

抱歉,如果标题错误或令人困惑

我正在处理两个源文件(想想转换为excel或加载到单独oracle表中的csv文件)。这两个文件中的数据是从业务角度关联的

文件1包含一组行和列。例如:

card_type, amount
VISA, 100
MASTERCARD, 300
DISCOVER, 200
AMEX, 150
DEBIT, 400
文件2包含simliar数据,但以未知方式聚合:

deposit_id, deposit_date, amount
1, 03/01/2015, 400
2, 03/01/2015, 350
3, 03/01/2015, 400
很明显,我把它简化了很多

我要寻找的是一种确定文件1中的行如何与文件2中的行相关的方法

在这种情况下,可能的结果是:

file1 (visa + mastercard = 400) = file2 deposit_id 1 (400)
file1 (debit = 400) = file2 deposit_id 1 (400)
file1 (visa = mastercard = 400) = file2 deposit_id 3 (400)
file1 (debit = 400) = file2 deposit_id 3 (400)
file1 (discover + amex = 350) = file2 deposit_id 2 (350)
……等等

有时可能会排除某些行(根本不使用)。可能有些行使用2x。可能有1个关联,可能有2个或3个。谁知道呢!不幸的是,数据文件的定义不是很好(这里谈论的是旧的大型机系统)

很明显,我可以尝试自己手动完成,但我最终尝试了大量的组合,这些组合都是死路一条,只会浪费时间。如果有一个系统能够接收输入并尝试查看它们之间可能存在的关联,那就太好了。我意识到每一个可能的解决方案都需要在事后由我自己手动分析,以确保它在所有数据集上都是合理的和有效的

如果你能给我一些建议,告诉我我要找的东西是否可行,或者用正确的术语来描述我的问题,我将不胜感激

如果可能的解决方案是查询形式的,或者甚至是提供该功能的现有应用程序/程序/网站,我也可以


谢谢

你怎么知道文件2的第一行不是单一的借记费用?还是两次美国运通收费,一次签证收费?还是两次发现指控?不幸的是,你不知道。这些文件(来自外部服务提供商)是众所周知的未记录文件。每次我们得到一个新的数据集时,我们都必须手动检查它们,并耗尽我们的大脑,试图找出数据之间的相关性。通常我们会进行一些猜测,发布数据,等待其他人看到错误/差异,然后修复并重试。有时,在第一次实施后的数周/数月内,我们都没有遇到数据,出现了我们没有预料到的“新”数据记录,并完全放弃了(需要添加/排除/等等)。换句话说,这是一个混乱的哈哈…从两个样本文件来看,似乎一切都是顺序的,如果是这种情况,问题会变得更简单,但如果数据不总是顺序的,则是一个更大的问题。