Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/perl/10.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用时间作为标准删除重复值SQLite_Python_Database_Sqlite - Fatal编程技术网

Python 使用时间作为标准删除重复值SQLite

Python 使用时间作为标准删除重复值SQLite,python,database,sqlite,Python,Database,Sqlite,经过一些研究,作为一名SQL的初学者,我不知道如何解决这个问题 数据集有重复的数据标题,文本,我想清理,但只应该考虑重复数据,差异在2个SEG以内的行。 例如: -第9行和第19行的值相同。 -第9行和第19行标题的差异开始假设ID是表的主键,您可以使用函数julianday: 如果要在新表中插入行,请执行以下操作: INSERT INTO new_table (ID, CAPTION_START, CAPTION_END, CAPTION_TEXT) SELECT * FROM tablen

经过一些研究,作为一名SQL的初学者,我不知道如何解决这个问题

数据集有重复的数据标题,文本,我想清理,但只应该考虑重复数据,差异在2个SEG以内的行。 例如: -第9行和第19行的值相同。 -第9行和第19行标题的差异开始假设ID是表的主键,您可以使用函数julianday:

如果要在新表中插入行,请执行以下操作:

INSERT INTO new_table (ID, CAPTION_START, CAPTION_END, CAPTION_TEXT) 
SELECT * FROM tablename AS t1
WHERE NOT EXISTS (
  SELECT 1 
  FROM tablename AS t2 
  WHERE t2.ID <> t1.ID
    AND t2.CAPTION_TEXT = t1.CAPTION_TEXT
    AND julianday(t1.CAPTION_START) - julianday(t2.CAPTION_START) BETWEEN 0 AND 2.0 / (24 * 60 * 60)
)

请参阅简化的。

应该删除这两个数据中的哪一个?第二个,如果更容易的话,即使我可以将新数据只插入其中一个到新表中。谢谢你的时间!
INSERT INTO new_table (ID, CAPTION_START, CAPTION_END, CAPTION_TEXT) 
SELECT * FROM tablename AS t1
WHERE NOT EXISTS (
  SELECT 1 
  FROM tablename AS t2 
  WHERE t2.ID <> t1.ID
    AND t2.CAPTION_TEXT = t1.CAPTION_TEXT
    AND julianday(t1.CAPTION_START) - julianday(t2.CAPTION_START) BETWEEN 0 AND 2.0 / (24 * 60 * 60)
)