Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Mysql 分布式环境下海量表数据的匹配_Mysql_Apache Spark_Nosql_Hadoop2_In Memory Database - Fatal编程技术网

Mysql 分布式环境下海量表数据的匹配

Mysql 分布式环境下海量表数据的匹配,mysql,apache-spark,nosql,hadoop2,in-memory-database,Mysql,Apache Spark,Nosql,Hadoop2,In Memory Database,我有一个shell脚本作业,它提供需要匹配的输入数据,并使用n个大型表(表大小从2000万条记录到1.5亿条记录)抑制这些数据。可以同时提交多个作业 输入数据大小从500k到3MM不等。 表的数量从5到40不等。 庞大的表格数据将实时更新; 匹配列将创建索引 目前,我正在Linux服务器上使用Mysql(英特尔(R)至强(R)CPU E5-2637 v3@3.50GHz和Ram 128Gb)执行此任务,这需要很长时间。我提供了一个shell脚本,它接受输入数据文件作为参数,点击数据库执行下面的查

我有一个shell脚本作业,它提供需要匹配的输入数据,并使用n个大型表(表大小从2000万条记录到1.5亿条记录)抑制这些数据。可以同时提交多个作业

输入数据大小从500k到3MM不等。 表的数量从5到40不等。 庞大的表格数据将实时更新; 匹配列将创建索引

目前,我正在Linux服务器上使用Mysql(英特尔(R)至强(R)CPU E5-2637 v3@3.50GHz和Ram 128Gb)执行此任务,这需要很长时间。我提供了一个shell脚本,它接受输入数据文件作为参数,点击数据库执行下面的查询并返回干净的数据

从InputableName a,table1 b中删除a,其中a.email=b.email;
从InputableName a中删除a,表2 b,其中a.email=b.email;
从InputableName a中删除a,表3 b,其中a.email=b.email;
从InputableName a中删除a,表4 b,其中a.email=b.email;
从InputableName a中删除a,表5 b,其中a.email=b.email;
从InputableName a中删除a,表6 b,其中a.email=b.email;

每个作业需要3到5分钟的结果。想知道这个问题是否可以用分布式方法解决。我愿意使用任何语言或技术

你是说“分布式”吗?如果有的话,你可以使用什么编程语言?(php?C#?Java?Python?)和,请您的问题更详细地描述您的问题。对不起,我的不好,我的意思是分布式的,我愿意使用任何编程语言或技术。我已经编辑了我的问题,如果您需要更多信息,请告诉我您是同时还是连续运行这些查询?是否对a.email和b.email进行了索引?我的shell脚本会按顺序执行查询,但多人可以一次调用此shell脚本。a、 email和b.email都是索引的。嗨,Dave和Jones,你们有什么想法可以分享来克服这个问题吗?还是有同样的问题。提前谢谢。你是说“分布式”吗?如果有的话,你可以使用什么编程语言?(php?C#?Java?Python?)和,请您的问题更详细地描述您的问题。对不起,我的不好,我的意思是分布式的,我愿意使用任何编程语言或技术。我已经编辑了我的问题,如果您需要更多信息,请告诉我您是同时还是连续运行这些查询?是否对a.email和b.email进行了索引?我的shell脚本会按顺序执行查询,但多人可以一次调用此shell脚本。a、 email和b.email都是索引的。嗨,Dave和Jones,你们有什么想法可以分享来克服这个问题吗?还是有同样的问题。提前谢谢。