Python 使用时间作为标准删除重复值SQLite
经过一些研究,作为一名SQL的初学者,我不知道如何解决这个问题Python 使用时间作为标准删除重复值SQLite,python,database,sqlite,Python,Database,Sqlite,经过一些研究,作为一名SQL的初学者,我不知道如何解决这个问题 数据集有重复的数据标题,文本,我想清理,但只应该考虑重复数据,差异在2个SEG以内的行。 例如: -第9行和第19行的值相同。 -第9行和第19行标题的差异开始假设ID是表的主键,您可以使用函数julianday: 如果要在新表中插入行,请执行以下操作: INSERT INTO new_table (ID, CAPTION_START, CAPTION_END, CAPTION_TEXT) SELECT * FROM tablen
数据集有重复的数据标题,文本,我想清理,但只应该考虑重复数据,差异在2个SEG以内的行。 例如: -第9行和第19行的值相同。 -第9行和第19行标题的差异开始假设ID是表的主键,您可以使用函数julianday:
如果要在新表中插入行,请执行以下操作:INSERT INTO new_table (ID, CAPTION_START, CAPTION_END, CAPTION_TEXT)
SELECT * FROM tablename AS t1
WHERE NOT EXISTS (
SELECT 1
FROM tablename AS t2
WHERE t2.ID <> t1.ID
AND t2.CAPTION_TEXT = t1.CAPTION_TEXT
AND julianday(t1.CAPTION_START) - julianday(t2.CAPTION_START) BETWEEN 0 AND 2.0 / (24 * 60 * 60)
)
请参阅简化的。应该删除这两个数据中的哪一个?第二个,如果更容易的话,即使我可以将新数据只插入其中一个到新表中。谢谢你的时间!
INSERT INTO new_table (ID, CAPTION_START, CAPTION_END, CAPTION_TEXT)
SELECT * FROM tablename AS t1
WHERE NOT EXISTS (
SELECT 1
FROM tablename AS t2
WHERE t2.ID <> t1.ID
AND t2.CAPTION_TEXT = t1.CAPTION_TEXT
AND julianday(t1.CAPTION_START) - julianday(t2.CAPTION_START) BETWEEN 0 AND 2.0 / (24 * 60 * 60)
)