Sql 自动检查数字集关联_Sql_Dataset_Analysis_Discrete Mathematics_Set Theory

Sql 自动检查数字集关联

sql

Sql 自动检查数字集关联,sql,dataset,analysis,discrete-mathematics,set-theory,Sql,Dataset,Analysis,Discrete Mathematics,Set Theory,抱歉，如果标题错误或令人困惑我正在处理两个源文件（想想转换为excel或加载到单独oracle表中的csv文件）。这两个文件中的数据是从业务角度关联的文件1包含一组行和列。例如： card_type, amount VISA, 100 MASTERCARD, 300 DISCOVER, 200 AMEX, 150 DEBIT, 400 文件2包含simliar数据，但以未知方式聚合： deposit_id, deposit_date, amount 1, 03/01/2015, 400 2

抱歉，如果标题错误或令人困惑

我正在处理两个源文件（想想转换为excel或加载到单独oracle表中的csv文件）。这两个文件中的数据是从业务角度关联的

文件1包含一组行和列。例如：

card_type, amount
VISA, 100
MASTERCARD, 300
DISCOVER, 200
AMEX, 150
DEBIT, 400

文件2包含simliar数据，但以未知方式聚合：

deposit_id, deposit_date, amount
1, 03/01/2015, 400
2, 03/01/2015, 350
3, 03/01/2015, 400

很明显，我把它简化了很多

我要寻找的是一种确定文件1中的行如何与文件2中的行相关的方法

在这种情况下，可能的结果是：

file1 (visa + mastercard = 400) = file2 deposit_id 1 (400)
file1 (debit = 400) = file2 deposit_id 1 (400)
file1 (visa = mastercard = 400) = file2 deposit_id 3 (400)
file1 (debit = 400) = file2 deposit_id 3 (400)
file1 (discover + amex = 350) = file2 deposit_id 2 (350)

……等等

有时可能会排除某些行（根本不使用）。可能有些行使用2x。可能有1个关联，可能有2个或3个。谁知道呢！不幸的是，数据文件的定义不是很好（这里谈论的是旧的大型机系统）

很明显，我可以尝试自己手动完成，但我最终尝试了大量的组合，这些组合都是死路一条，只会浪费时间。如果有一个系统能够接收输入并尝试查看它们之间可能存在的关联，那就太好了。我意识到每一个可能的解决方案都需要在事后由我自己手动分析，以确保它在所有数据集上都是合理的和有效的

如果你能给我一些建议，告诉我我要找的东西是否可行，或者用正确的术语来描述我的问题，我将不胜感激

如果可能的解决方案是查询形式的，或者甚至是提供该功能的现有应用程序/程序/网站，我也可以

谢谢

你怎么知道文件2的第一行不是单一的借记费用？还是两次美国运通收费，一次签证收费？还是两次发现指控？不幸的是，你不知道。这些文件（来自外部服务提供商）是众所周知的未记录文件。每次我们得到一个新的数据集时，我们都必须手动检查它们，并耗尽我们的大脑，试图找出数据之间的相关性。通常我们会进行一些猜测，发布数据，等待其他人看到错误/差异，然后修复并重试。有时，在第一次实施后的数周/数月内，我们都没有遇到数据，出现了我们没有预料到的“新”数据记录，并完全放弃了（需要添加/排除/等等）。换句话说，这是一个混乱的哈哈…从两个样本文件来看，似乎一切都是顺序的，如果是这种情况，问题会变得更简单，但如果数据不总是顺序的，则是一个更大的问题。