Mysql 在大型数据集中搜索(停留在框中=>;会议)

Mysql 在大型数据集中搜索(停留在框中=>;会议),mysql,database,hadoop,dataset,bigdata,Mysql,Database,Hadoop,Dataset,Bigdata,我正在研究老鼠的社交互动模型。我有鼠标和盒子,还有一个模拟,可以输出哪个鼠标在哪个时间段停留在哪个盒子里。问题在于,如何最终并从中获得在重叠时间内位于同一盒子中的两个mice的会议 现在我有一个MySQL数据库,模拟直接插入每个结果。然后,另一个用Scala编写的工具只检索几百个部分中的所有stay result,循环遍历它们,并为每个查询数据库哪个stay与它重叠,然后将每一对插入数据库,如下所示: `box`,`id1`, `res_id1`, `id2`, `res_id2`, `from

我正在研究老鼠的社交互动模型。我有鼠标和盒子,还有一个模拟,可以输出哪个鼠标在哪个时间段停留在哪个盒子里。问题在于,如何最终并从中获得在重叠时间内位于同一盒子中的两个mice的会议

现在我有一个MySQL数据库,模拟直接插入每个结果。然后,另一个用Scala编写的工具只检索几百个部分中的所有stay result,循环遍历它们,并为每个查询数据库哪个stay与它重叠,然后将每一对插入数据库,如下所示:

`box`,`id1`, `res_id1`, `id2`, `res_id2`, `from`, `to`, `dt`, `typ`
这意味着小鼠id1和id2在“从”到“到”的时间间隔内位于“框”中,持续时间为“dt”,会议类型为“典型”。根据每个鼠标在框中的时间(例如,一个鼠标相对于另一个鼠标的进出时间),可能有四种类型的会议。“res_id1”和“res_id2”告诉您使用了哪些逗留结果来生成会议结果

显然,这是非常低效的。有什么更好的方法?我并不局限于使用RDMS,但我认为这将是最简单的,因为我正在阅读并进一步分析R中的数据。在文本文件中输出停留时间,然后使用Hadoop以某种方式生成会议,这有意义吗?还是别的什么

在大约四分之一的模拟试验期间,我生成了大约150万个结果