Python 3.x 通过python查找文本文件中的重复值
寻找在文本文件中查找重复值的pythonic方法Python 3.x 通过python查找文本文件中的重复值,python-3.x,Python 3.x,寻找在文本文件中查找重复值的pythonic方法 1||mike||jones||38||first street||2018-05-01 2||michale||jones||38||8th street||2018-05-01 3||mich||jones||38||9th street||2018-05-01 4||mitchel||jones||38||10th street||2018-05-01 1||mike||jones||38||first street||2018-12-01
1||mike||jones||38||first street||2018-05-01
2||michale||jones||38||8th street||2018-05-01
3||mich||jones||38||9th street||2018-05-01
4||mitchel||jones||38||10th street||2018-05-01
1||mike||jones||38||first street||2018-12-01
是否尝试查找重复的id列并保留最新的?
我是否可以将输出插入id循环到列表中,然后检查值是否已经在列表中?我们有非常强大的库熊猫,可以用最少的代码行执行分析操作 pandas基本上是一个开放源码的python包,它提供了许多用于数据分析的工具。熊猫的一些基本优势和用途如下:
pip安装pandas
i/p>以给定格式输入数据的文本文件
o/p>以csv格式输出所需的文本文件
import pandas as pd
from datetime import datetime
with open("input") as file: # Read input
headers = ["id", "first_name", "last_name", "age", "address", "date"]
dtypes = [int, str, str, int, str, datetime]
data_frame = pd.read_csv(file, sep='[|][|]', names=headers, header=None, parse_dates=['date'],
engine="python") # Read data into data frame from csv
data_frame.sort_values(data_frame.date.name, ascending=False, inplace=True) # Sort the values based on dates
data_frame.drop_duplicates(subset=data_frame.id.name, inplace=True) # Delete duplicate rows based on id
data_frame.to_csv('output', sep=',', header=None) # Generate outpu
我们有非常强大的库Pandas,可以用最少的代码行执行分析操作 pandas基本上是一个开放源码的python包,它提供了许多用于数据分析的工具。熊猫的一些基本优势和用途如下:
pip安装pandas
i/p>以给定格式输入数据的文本文件
o/p>以csv格式输出所需的文本文件
import pandas as pd
from datetime import datetime
with open("input") as file: # Read input
headers = ["id", "first_name", "last_name", "age", "address", "date"]
dtypes = [int, str, str, int, str, datetime]
data_frame = pd.read_csv(file, sep='[|][|]', names=headers, header=None, parse_dates=['date'],
engine="python") # Read data into data frame from csv
data_frame.sort_values(data_frame.date.name, ascending=False, inplace=True) # Sort the values based on dates
data_frame.drop_duplicates(subset=data_frame.id.name, inplace=True) # Delete duplicate rows based on id
data_frame.to_csv('output', sep=',', header=None) # Generate outpu
你保留最新的是什么意思?是否要删除除最新副本以外的所有副本?请提供您想要获得的最终文本文件。也许这会有所帮助。对不起,最近我指的是使用最后一列的日期。例如,列0是id。在该文件中,我有重复的1,但在本例中,最后一个条目的日期比第一个id 1更为当前。所以我需要那个实例,而不是第一个实例。当然,它可以在文件中的任何地方,而不一定是最后一个条目。保留最新条目是什么意思?是否要删除除最新副本以外的所有副本?请提供您想要获得的最终文本文件。也许这会有所帮助。对不起,最近我指的是使用最后一列的日期。例如,列0是id。在该文件中,我有重复的1,但在本例中,最后一个条目的日期比第一个id 1更为当前。所以我需要那个实例,而不是第一个实例。但当然,它可以在文件中的任何位置,而不总是最后一个条目。