Python中的重复数据消除-如何使脚本自动运行?
我试图在一个包含10000行的大型excel电子表格中删除一些数据 这是我的脚本:Python中的重复数据消除-如何使脚本自动运行?,python,pandas,Python,Pandas,我试图在一个包含10000行的大型excel电子表格中删除一些数据 这是我的脚本: import pandas as pd import pandas_dedupe df = pd.read_excel('Qualys-Working.xlsx') df_final = pandas_dedupe.dedupe_dataframe(df,['IP','DNS','CONTROL_ID','INSTANCE']) df_final.to_excel('Qualys-TimD-Working-NEW
import pandas as pd
import pandas_dedupe
df = pd.read_excel('Qualys-Working.xlsx')
df_final = pandas_dedupe.dedupe_dataframe(df,['IP','DNS','CONTROL_ID','INSTANCE'])
df_final.to_excel('Qualys-TimD-Working-NEW.xlsx',index=False)
但当我运行脚本时,它会不断要求我对数据进行选择:
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious
n
IP : 10.0.0.12
DNS : prd-sql-a5
CONTROL_ID : 999999.0
INSTANCE : None
IP : None
DNS : None
CONTROL_ID : None
INSTANCE : None
0/10 positive, 4/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious
要在10000行上运行它需要很长时间,我不确定我必须做出的所有选择。如何使其自动运行?熊猫重复数据消除库的工作原理如下:
- 将数据集的样本标记为重复或不同的记录
- 当您标记了足够的记录后,按f键(即完成)
- “重复数据消除”保存在设置文件中学习的内容(您将看到它们显示在文件夹中)